論文の概要: Curiosity-Driven Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2501.11463v1
- Date: Mon, 20 Jan 2025 12:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:13.094910
- Title: Curiosity-Driven Reinforcement Learning from Human Feedback
- Title(参考訳): 好奇心駆動型強化学習
- Authors: Haoran Sun, Yekun Chai, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang,
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを一致させるのに有効であるが、出力の多様性を減らすためにしばしば効果的である。
好奇心駆動型RLHF(CD-RLHF)を導入する。
テキスト要約や命令追従を含むタスクの広範な実験を通じて,CD-RLHFの有効性を実証する。
- 参考スコア(独自算出の注目度): 56.45486828254951
- License:
- Abstract: Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences, but often at the cost of reduced output diversity. This trade-off between diversity and alignment quality remains a significant challenge. Drawing inspiration from curiosity-driven exploration in reinforcement learning, we introduce curiosity-driven RLHF (CD-RLHF), a framework that incorporates intrinsic rewards for novel states, alongside traditional sparse extrinsic rewards, to optimize both output diversity and alignment quality. We demonstrate the effectiveness of CD-RLHF through extensive experiments on a range of tasks, including text summarization and instruction following. Our approach achieves significant gains in diversity on multiple diversity-oriented metrics while maintaining alignment with human preferences comparable to standard RLHF. We make our code publicly available at https://github.com/ernie-research/CD-RLHF.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるのに有効であることが証明されている。
多様性とアライメント品質のトレードオフは依然として大きな課題です。
強化学習における好奇心駆動による探索からインスピレーションを得て,新しい状態に対する本質的な報酬を取り入れた,好奇心駆動型RLHF(CD-RLHF)を導入し,出力多様性とアライメント品質の両方を最適化する。
テキスト要約や命令追従を含むタスクの広範な実験を通じて,CD-RLHFの有効性を実証する。
提案手法は,標準RLHFに匹敵する人間の嗜好に適合しながら,複数の多様性指向メトリクスの多様性を著しく向上させる。
コードはhttps://github.com/ernie-research/CD-RLHF.comで公開しています。
関連論文リスト
- Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback [43.51441849047147]
本稿では,RLHFに適したシステム実装であるUni-RLHFを紹介する。
Uni-RLHFには,1)ユニバーサルなマルチフィードバックアノテーションプラットフォーム,2)大規模なクラウドソースフィードバックデータセット,3)モジュール化されたオフラインRLHFベースライン実装の3つのパッケージが含まれている。
論文 参考訳(メタデータ) (2024-02-04T09:40:22Z) - Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization [13.436983663467938]
本稿では,ヒトフィードバックによる品質の多様性(QDHF)について紹介する。
実証的な研究によると、QDHFは自動多様性発見において最先端の手法を著しく上回っている。
オープンな生成タスクにおいて、QDHFは拡散モデルからテキストから画像への生成の多様性を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-18T16:46:16Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。