論文の概要: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI
Feedback
- arxiv url: http://arxiv.org/abs/2309.00267v2
- Date: Fri, 1 Dec 2023 01:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:11:02.129343
- Title: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI
Feedback
- Title(参考訳): RLAIF:AIフィードバックによる人間のフィードバックからの強化学習のスケールアップ
- Authors: Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan
Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav
Rastogi, Sushant Prakash
- Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の好みを合わせるのに有効であることが証明されている。
AI Feedback (RLAIF) の RL は、強力なオフザシェルフ LLM を活用して、人間のアノテータの代わりに好みを生成する、有望な代替手段を提供する。
以上の結果から,RLHFのスケーラビリティ限界に対する潜在的な解決策として,RLAIFが人間レベルの性能を実現することが示唆された。
- 参考スコア(独自算出の注目度): 5.469395454378616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has proven effective in
aligning large language models (LLMs) with human preferences. However,
gathering high-quality human preference labels can be a time-consuming and
expensive endeavor. RL from AI Feedback (RLAIF), introduced by Bai et al.,
offers a promising alternative that leverages a powerful off-the-shelf LLM to
generate preferences in lieu of human annotators. Across the tasks of
summarization, helpful dialogue generation, and harmless dialogue generation,
RLAIF achieves comparable or superior performance to RLHF, as rated by human
evaluators. Furthermore, RLAIF demonstrates the ability to outperform a
supervised fine-tuned baseline even when the LLM preference labeler is the same
size as the policy. In another experiment, directly prompting the LLM for
reward scores achieves superior performance to the canonical RLAIF setup, where
LLM preference labels are first distilled into a reward model. Finally, we
conduct extensive studies on techniques for generating aligned AI preferences.
Our results suggest that RLAIF can achieve human-level performance, offering a
potential solution to the scalability limitations of RLHF.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の好みを合わせるのに有効であることが証明されている。
しかし、高品質な人間の嗜好ラベルを集めることは、時間と費用のかかる努力である。
Baiらが導入したRL from AI Feedback (RLAIF)は、強力なオフザシェルフLLMを活用して、人間のアノテーションの代わりに好みを生成する、有望な代替手段を提供する。
RLAIFは、要約、補助対話生成、無害対話生成のタスク全体にわたって、人間の評価者によって評価されるように、RLHFと同等または優れたパフォーマンスを達成する。
さらに、LDM選好ラベルラがポリシーと同じサイズであっても、教師付き微調整ベースラインを上回る性能を示す。
別の実験では、LLMに報酬スコアを直接促すことは、LLM選好ラベルを初めて報酬モデルに蒸留する標準RLAIF設定よりも優れた性能が得られる。
最後に、協調したAI嗜好を生成する手法について広範な研究を行う。
以上の結果から,RLHFのスケーラビリティ限界に対する潜在的な解決策として,RLAIFが人間レベルの性能を実現することが示唆された。
関連論文リスト
- Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Aligning Large Language Models with Human Preferences through
Representation Engineering [43.201368273466365]
表現工学(RepE)の新たな分野から着想を得た本研究は,LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定することを目的としている。
この新しいアプローチは、人間フィードバックからの表現アライメント(Representation Alignment from Human Feedback、RAHF)と呼ばれ、効果的で、計算的に効率的で、実装が容易であることが証明されている。
論文 参考訳(メタデータ) (2023-12-26T11:01:36Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - SALMON: Self-Alignment with Principle-Following Reward Models [84.31474052176343]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちのアプローチの中心は、原則に従う報酬モデルです。
提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - UltraFeedback: Boosting Language Models with High-quality Feedback [77.55342076933047]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。
現在の選好データセットは、プロプライエタリなものか、サイズが限定されているか、あるいはプロプライエタリなものかのいずれかで、オープンソースモデルでのRLHFの採用が制限されている。
本稿では,これらの制限を克服し,RLHF開発を促進するために,大規模で高品質で多様な嗜好データセットを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。