Fugu-MT 論文翻訳(概要): RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

論文の概要: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

arxiv url: http://arxiv.org/abs/2309.00267v2
Date: Fri, 1 Dec 2023 01:41:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 18:11:02.129343
Title: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
Title（参考訳）: RLAIF:AIフィードバックによる人間のフィードバックからの強化学習のスケールアップ
Authors: Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash
Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の好みを合わせるのに有効であることが証明されている。 AI Feedback (RLAIF) の RL は、強力なオフザシェルフ LLM を活用して、人間のアノテータの代わりに好みを生成する、有望な代替手段を提供する。以上の結果から,RLHFのスケーラビリティ限界に対する潜在的な解決策として,RLAIFが人間レベルの性能を実現することが示唆された。
参考スコア（独自算出の注目度）: 5.469395454378616
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences. However, gathering high-quality human preference labels can be a time-consuming and expensive endeavor. RL from AI Feedback (RLAIF), introduced by Bai et al., offers a promising alternative that leverages a powerful off-the-shelf LLM to generate preferences in lieu of human annotators. Across the tasks of summarization, helpful dialogue generation, and harmless dialogue generation, RLAIF achieves comparable or superior performance to RLHF, as rated by human evaluators. Furthermore, RLAIF demonstrates the ability to outperform a supervised fine-tuned baseline even when the LLM preference labeler is the same size as the policy. In another experiment, directly prompting the LLM for reward scores achieves superior performance to the canonical RLAIF setup, where LLM preference labels are first distilled into a reward model. Finally, we conduct extensive studies on techniques for generating aligned AI preferences. Our results suggest that RLAIF can achieve human-level performance, offering a potential solution to the scalability limitations of RLHF.
Abstract（参考訳）: 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の好みを合わせるのに有効であることが証明されている。しかし、高品質な人間の嗜好ラベルを集めることは、時間と費用のかかる努力である。 Baiらが導入したRL from AI Feedback (RLAIF)は、強力なオフザシェルフLLMを活用して、人間のアノテーションの代わりに好みを生成する、有望な代替手段を提供する。 RLAIFは、要約、補助対話生成、無害対話生成のタスク全体にわたって、人間の評価者によって評価されるように、RLHFと同等または優れたパフォーマンスを達成する。さらに、LDM選好ラベルラがポリシーと同じサイズであっても、教師付き微調整ベースラインを上回る性能を示す。別の実験では、LLMに報酬スコアを直接促すことは、LLM選好ラベルを初めて報酬モデルに蒸留する標準RLAIF設定よりも優れた性能が得られる。最後に、協調したAI嗜好を生成する手法について広範な研究を行う。以上の結果から,RLHFのスケーラビリティ限界に対する潜在的な解決策として,RLAIFが人間レベルの性能を実現することが示唆された。

関連論文リスト

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文参考訳（メタデータ） (2025-07-21T11:19:04Z)
Generative RLHF-V: Learning Principles from Multi-modal Human Preference [15.068452240642884]
我々は、GRMとマルチモーダルRLHFを統合する新しいアライメントフレームワーク、Generative RLHF-Vを紹介する。 RL$の2段階のパイプラインを提案する: $textbfmulti-modalgenerative reward Modeling from RL$, そこでは、RLがGRMを誘導し、人間の意図を積極的に捉え、正しいペアワイズスコアを予測する。我々のフレームワークは7つのベンチマークで4つのMLLMのパフォーマンスを18.1%$で改善し、ベースラインのRLHFは5.3%$でしかない。
論文参考訳（メタデータ） (2025-05-24T05:50:07Z)
Direct Advantage Regression: Aligning LLMs with Online AI Reward [59.78549819431632]
オンラインAIフィードバック(OAIF)は、人間からの強化学習(RLHF)に代わる有望な代替手段を提供する我々は,重み付き教師付き微調整による政策改善を最適化するダイレクトアドバンテージ・レグレッション(DAR)を提案する。我々の経験的結果は、AI報酬はAIの好みとは対照的に、より高度な人間とAIの合意を一貫して達成するAI監督のより良い形態であることを示している。
論文参考訳（メタデータ） (2025-04-19T04:44:32Z)
Generative Reward Models [42.30530024761532]
RLHF(Reinforcement Learning from Human Feedback)は、現代の大規模言語モデル(LLM)の性能を大幅に改善した。近年の研究では、合成選好ラベルは人間の選好判断とうまく一致していないことが示されている。本稿では RLHF と RLAIF の方法論を統一するハイブリッド手法を提案する。以上の結果から,RLHFとRLAIFの強度を組み合わせることで,合成選好ラベルの品質向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-10-02T17:58:39Z)
Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。 HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文参考訳（メタデータ） (2024-08-18T07:04:16Z)
A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文参考訳（メタデータ） (2024-02-19T18:53:54Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文参考訳（メタデータ） (2023-12-30T14:14:14Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文参考訳（メタデータ） (2023-05-09T17:06:06Z)
RRHF: Rank Responses to Align Language Models with Human Feedback without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文参考訳（メタデータ） (2023-04-11T15:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。