論文の概要: The Perfect Blend: Redefining RLHF with Mixture of Judges
- arxiv url: http://arxiv.org/abs/2409.20370v1
- Date: Mon, 30 Sep 2024 15:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 07:46:26.889893
- Title: The Perfect Blend: Redefining RLHF with Mixture of Judges
- Title(参考訳): 完璧なブレンド:RLHFの再定義と裁判官の混成
- Authors: Tengyu Xu, Eryk Helenowski, Karthik Abinav Sankararaman, Di Jin, Kaiyan Peng, Eric Han, Shaoliang Nie, Chen Zhu, Hejia Zhang, Wenxuan Zhou, Zhouhao Zeng, Yun He, Karishma Mandyam, Arya Talabzadeh, Madian Khabsa, Gabriel Cohen, Yuandong Tian, Hao Ma, Sinong Wang, Han Fang,
- Abstract要約: 人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
- 参考スコア(独自算出の注目度): 68.58426626501883
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has become the leading approach for fine-tuning large language models (LLM). However, RLHF has limitations in multi-task learning (MTL) due to challenges of reward hacking and extreme multi-objective optimization (i.e., trade-off of multiple and/or sometimes conflicting objectives). Applying RLHF for MTL currently requires careful tuning of the weights for reward model and data combinations. This is often done via human intuition and does not generalize. In this work, we introduce a novel post-training paradigm which we called Constrained Generative Policy Optimization (CGPO). The core of CGPO is Mixture of Judges (MoJ) with cost-efficient constrained policy optimization with stratification, which can identify the perfect blend in RLHF in a principled manner. It shows strong empirical results with theoretical guarantees, does not require extensive hyper-parameter tuning, and is plug-and-play in common post-training pipelines. Together, this can detect and mitigate reward hacking behaviors while reaching a pareto-optimal point across an extremely large number of objectives. Our empirical evaluations demonstrate that CGPO significantly outperforms standard RLHF algorithms like PPO and DPO across various tasks including general chat, STEM questions, instruction following, and coding. Specifically, CGPO shows improvements of 7.4% in AlpacaEval-2 (general chat), 12.5% in Arena-Hard (STEM & reasoning), and consistent gains in other domains like math and coding. Notably, PPO, while commonly used, is prone to severe reward hacking in popular coding benchmarks, which CGPO successfully addresses. This breakthrough in RLHF not only tackles reward hacking and extreme multi-objective optimization challenges but also advances the state-of-the-art in aligning general-purpose LLMs for diverse applications.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は,大規模言語モデル(LLM)の指導的アプローチとなっている。
しかし、RLHFは、報酬ハックと極端な多目的最適化(複数または時には矛盾する目的のトレードオフ)の課題のため、マルチタスク学習(MTL)に制限がある。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
これはしばしば人間の直観によって行われ、一般化しない。
本稿では,CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを紹介する。
CGPOの中核は、コスト効率の制約された政策最適化と成層化を併用したMixture of Judges (MoJ)であり、RLHFの完全ブレンドを原則的に識別することができる。
理論的な保証とともに強い実験結果を示し、広範囲なハイパーパラメータチューニングを必要とせず、一般的なポストトレーニングパイプラインではプラグアンドプレイである。
同時に、非常に多くの目的にまたがる最適地点に到達しながら、報酬のハッキング行動を検出し、緩和することができる。
実験により,CGPOは汎用チャット,STEM質問,命令追従,コーディングなど,PPOやDPOなどの標準RLHFアルゴリズムを著しく上回っていることが示された。
具体的には、AlpacaEval-2(一般的なチャット)の7.4%の改善、Arena-Hard(STEMと推論)の12.5%の改善、数学やコーディングなどの他の領域での一貫性のある向上を示している。
特に、一般的に使われているPPOは、CGPOがうまく対処する一般的なコーディングベンチマークにおいて、深刻な報酬のハッキングの傾向にある。
RLHFにおけるこのブレークスルーは、報酬ハッキングと極端な多目的最適化の課題に取り組むだけでなく、多様なアプリケーションのために汎用LLMを整合させる最先端技術にも取り組みます。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
人間フィードバックからの強化学習(RLHF)は,近年の大規模言語モデル(LLM)の成功に不可欠である。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、定式化する。
DAA法は, 幅広いKL予算にまたがるだけでなく, データセットの1つのエポックが完成する前にも劣化することがわかった。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Uncertainty-Penalized Reinforcement Learning from Human Feedback with
Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。
本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。
本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文 参考訳(メタデータ) (2023-12-30T14:14:14Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。