Fugu-MT 論文翻訳(概要): RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

論文の概要: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

arxiv url: http://arxiv.org/abs/2309.00267v1
Date: Fri, 1 Sep 2023 05:53:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-04 14:22:54.189280
Title: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
Title（参考訳）: RLAIF:AIフィードバックによる人間のフィードバックからの強化学習のスケールアップ
Authors: Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, Abhinav Rastogi
Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合に有効であるが、高品質な人選好ラベルの収集は重要なボトルネックである。我々はAIフィードバック(RLAIF)からRLHF対RLの直接比較を行う。要約のタスクでは、人間の評価者はRLAIFとRLHFの両方の世代を、70%のケースでベースライン監督された微調整モデルよりも好んでいる。 RLAIF vs. RLHFサマリーの評価を求めると、人間は両者を同等のレートで求める。
参考スコア（独自算出の注目度）: 3.6319756084867465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.
Abstract（参考訳）: 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合に有効であるが、高品質な人選好ラベルの収集は重要なボトルネックである。我々は、AI Feedback (RLAIF) からRLHF対RLの直接比較を行い、人間の代わりに市販のLLMで嗜好をラベル付けする手法である。要約のタスクでは、人間の評価者はRLAIFとRLHFの両方の世代を、約70%のケースにおいてベースラインで制御された微調整モデルよりも好んでいる。さらに、RLAIF vs. RLHFサマリーの評価を依頼されると、人間は両者を同等のレートで求める。これらの結果から, RLHFのスケーラビリティ限界に対する潜在的な解決策として, RLAIFは人間レベルの性能が得られることが示唆された。

関連論文リスト

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文参考訳（メタデータ） (2025-07-21T11:19:04Z)
Generative RLHF-V: Learning Principles from Multi-modal Human Preference [15.068452240642884]
我々は、GRMとマルチモーダルRLHFを統合する新しいアライメントフレームワーク、Generative RLHF-Vを紹介する。 RL$の2段階のパイプラインを提案する: $textbfmulti-modalgenerative reward Modeling from RL$, そこでは、RLがGRMを誘導し、人間の意図を積極的に捉え、正しいペアワイズスコアを予測する。我々のフレームワークは7つのベンチマークで4つのMLLMのパフォーマンスを18.1%$で改善し、ベースラインのRLHFは5.3%$でしかない。
論文参考訳（メタデータ） (2025-05-24T05:50:07Z)
Direct Advantage Regression: Aligning LLMs with Online AI Reward [59.78549819431632]
オンラインAIフィードバック(OAIF)は、人間からの強化学習(RLHF)に代わる有望な代替手段を提供する我々は,重み付き教師付き微調整による政策改善を最適化するダイレクトアドバンテージ・レグレッション(DAR)を提案する。我々の経験的結果は、AI報酬はAIの好みとは対照的に、より高度な人間とAIの合意を一貫して達成するAI監督のより良い形態であることを示している。
論文参考訳（メタデータ） (2025-04-19T04:44:32Z)
Generative Reward Models [42.30530024761532]
RLHF(Reinforcement Learning from Human Feedback)は、現代の大規模言語モデル(LLM)の性能を大幅に改善した。近年の研究では、合成選好ラベルは人間の選好判断とうまく一致していないことが示されている。本稿では RLHF と RLAIF の方法論を統一するハイブリッド手法を提案する。以上の結果から,RLHFとRLAIFの強度を組み合わせることで,合成選好ラベルの品質向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-10-02T17:58:39Z)
Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。 HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文参考訳（メタデータ） (2024-08-18T07:04:16Z)
A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文参考訳（メタデータ） (2024-02-19T18:53:54Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文参考訳（メタデータ） (2023-12-30T14:14:14Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文参考訳（メタデータ） (2023-05-09T17:06:06Z)
RRHF: Rank Responses to Align Language Models with Human Feedback without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文参考訳（メタデータ） (2023-04-11T15:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。