論文の概要: The Perfect Blend: Redefining RLHF with Mixture of Judges
- arxiv url: http://arxiv.org/abs/2409.20370v1
- Date: Mon, 30 Sep 2024 15:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 07:46:26.889893
- Title: The Perfect Blend: Redefining RLHF with Mixture of Judges
- Title(参考訳): 完璧なブレンド:RLHFの再定義と裁判官の混成
- Authors: Tengyu Xu, Eryk Helenowski, Karthik Abinav Sankararaman, Di Jin, Kaiyan Peng, Eric Han, Shaoliang Nie, Chen Zhu, Hejia Zhang, Wenxuan Zhou, Zhouhao Zeng, Yun He, Karishma Mandyam, Arya Talabzadeh, Madian Khabsa, Gabriel Cohen, Yuandong Tian, Hao Ma, Sinong Wang, Han Fang,
- Abstract要約: 人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
- 参考スコア(独自算出の注目度): 68.58426626501883
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has become the leading approach for fine-tuning large language models (LLM). However, RLHF has limitations in multi-task learning (MTL) due to challenges of reward hacking and extreme multi-objective optimization (i.e., trade-off of multiple and/or sometimes conflicting objectives). Applying RLHF for MTL currently requires careful tuning of the weights for reward model and data combinations. This is often done via human intuition and does not generalize. In this work, we introduce a novel post-training paradigm which we called Constrained Generative Policy Optimization (CGPO). The core of CGPO is Mixture of Judges (MoJ) with cost-efficient constrained policy optimization with stratification, which can identify the perfect blend in RLHF in a principled manner. It shows strong empirical results with theoretical guarantees, does not require extensive hyper-parameter tuning, and is plug-and-play in common post-training pipelines. Together, this can detect and mitigate reward hacking behaviors while reaching a pareto-optimal point across an extremely large number of objectives. Our empirical evaluations demonstrate that CGPO significantly outperforms standard RLHF algorithms like PPO and DPO across various tasks including general chat, STEM questions, instruction following, and coding. Specifically, CGPO shows improvements of 7.4% in AlpacaEval-2 (general chat), 12.5% in Arena-Hard (STEM & reasoning), and consistent gains in other domains like math and coding. Notably, PPO, while commonly used, is prone to severe reward hacking in popular coding benchmarks, which CGPO successfully addresses. This breakthrough in RLHF not only tackles reward hacking and extreme multi-objective optimization challenges but also advances the state-of-the-art in aligning general-purpose LLMs for diverse applications.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は,大規模言語モデル(LLM)の指導的アプローチとなっている。
しかし、RLHFは、報酬ハックと極端な多目的最適化(複数または時には矛盾する目的のトレードオフ)の課題のため、マルチタスク学習(MTL)に制限がある。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
これはしばしば人間の直観によって行われ、一般化しない。
本稿では,CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを紹介する。
CGPOの中核は、コスト効率の制約された政策最適化と成層化を併用したMixture of Judges (MoJ)であり、RLHFの完全ブレンドを原則的に識別することができる。
理論的な保証とともに強い実験結果を示し、広範囲なハイパーパラメータチューニングを必要とせず、一般的なポストトレーニングパイプラインではプラグアンドプレイである。
同時に、非常に多くの目的にまたがる最適地点に到達しながら、報酬のハッキング行動を検出し、緩和することができる。
実験により,CGPOは汎用チャット,STEM質問,命令追従,コーディングなど,PPOやDPOなどの標準RLHFアルゴリズムを著しく上回っていることが示された。
具体的には、AlpacaEval-2(一般的なチャット)の7.4%の改善、Arena-Hard(STEMと推論)の12.5%の改善、数学やコーディングなどの他の領域での一貫性のある向上を示している。
特に、一般的に使われているPPOは、CGPOがうまく対処する一般的なコーディングベンチマークにおいて、深刻な報酬のハッキングの傾向にある。
RLHFにおけるこのブレークスルーは、報酬ハッキングと極端な多目的最適化の課題に取り組むだけでなく、多様なアプリケーションのために汎用LLMを整合させる最先端技術にも取り組みます。
関連論文リスト
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human
Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Policy Filtration in RLHF to Fine-Tune LLM for Code Generation [13.2216273705657]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)が指示に従い、無害な応答を提供するのを助ける重要な手法の1つである。
直接的なポリシー最適化手法は存在するが、最先端のLCMはRLベースの手法(通常はPPO)をRLHFに導入し、優先データから学習した報酬モデルによって導かれる良い応答を生成するようにポリシーを訓練する。
報酬モデルの信頼性は、異なる報酬が割り当てられた応答によって異なることがわかった。
これにより、報酬が信頼できないサンプルをフィルタリングし、政策学習時の信号対雑音比を改善する動機付けとなる。
論文 参考訳(メタデータ) (2024-09-11T02:40:38Z) - UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function [14.7365465149829]
我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。
この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。
RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
論文 参考訳(メタデータ) (2024-08-27T18:04:07Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。