論文の概要: RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
- arxiv url: http://arxiv.org/abs/2309.00267v3
- Date: Tue, 3 Sep 2024 14:01:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:35:08.323802
- Title: RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
- Title(参考訳): RLAIF vs. RLHF:AIフィードバックによる人間のフィードバックからの強化学習のスケーリング
- Authors: Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash,
- Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を結びつけるのに有効であることが証明されているが、高品質な嗜好ラベルの収集は高価である。
RLAIFは、既製のLLMが生成した好みに基づいて報酬モデル(RM)を訓練する有望な代替手段を提供する。
この結果から, RLHF のスケーラビリティ限界に対する潜在的な解決策として, 人間のフィードバックを活用すれば, RLAIF による性能向上が期待できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.3113139864044046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences, but gathering high-quality preference labels is expensive. RL from AI Feedback (RLAIF), introduced in Bai et al., offers a promising alternative that trains the reward model (RM) on preferences generated by an off-the-shelf LLM. Across the tasks of summarization, helpful dialogue generation, and harmless dialogue generation, we show that RLAIF achieves comparable performance to RLHF. Furthermore, we take a step towards "self-improvement" by demonstrating that RLAIF can outperform a supervised fine-tuned baseline even when the AI labeler is the same size as the policy, or even the exact same checkpoint as the initial policy. Finally, we introduce direct-RLAIF (d-RLAIF) - a technique that circumvents RM training by obtaining rewards directly from an off-the-shelf LLM during RL, which achieves superior performance to canonical RLAIF. Our results suggest that RLAIF can achieve performance on-par with using human feedback, offering a potential solution to the scalability limitations of RLHF.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を結びつけるのに有効であることが証明されているが、高品質な嗜好ラベルの収集は高価である。
RL from AI Feedback (RLAIF)はBai et alで紹介され、既製のLLMによって生成される好みに基づいて報酬モデル(RM)をトレーニングする有望な代替手段を提供する。
要約,補助対話生成,無害対話生成のタスクにおいて,RLAIFがRLHFに匹敵する性能を発揮することを示す。
さらに、AIラベルラがポリシーと同じサイズである場合や、初期ポリシーと全く同じチェックポイントであっても、RLAIFが教師付き微調整ベースラインを上回り得ることを示すことで、"自己改善"への一歩を踏み出した。
最後に,RL中の既設LLMから直接報酬を得ることにより,RMトレーニングを回避し,標準RLAIFよりも優れた性能を実現する手法であるdirect-RLAIF(d-RLAIF)を紹介する。
この結果から, RLHF のスケーラビリティ限界に対する潜在的な解決策として, 人間のフィードバックを活用すれば, RLAIF による性能向上が期待できる可能性が示唆された。
関連論文リスト
- Generative Reward Models [42.30530024761532]
RLHF(Reinforcement Learning from Human Feedback)は、現代の大規模言語モデル(LLM)の性能を大幅に改善した。
近年の研究では、合成選好ラベルは人間の選好判断とうまく一致していないことが示されている。
本稿では RLHF と RLAIF の方法論を統一するハイブリッド手法を提案する。
以上の結果から,RLHFとRLAIFの強度を組み合わせることで,合成選好ラベルの品質向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:58:39Z) - Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。
本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。
HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-08-18T07:04:16Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Uncertainty-Penalized Reinforcement Learning from Human Feedback with
Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。
本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。
本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文 参考訳(メタデータ) (2023-12-30T14:14:14Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:06:06Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。