論文の概要: Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences
- arxiv url: http://arxiv.org/abs/2404.03715v1
- Date: Thu, 4 Apr 2024 17:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 17:45:28.717328
- Title: Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences
- Title(参考訳): ダイレクトナッシュ最適化: 言語モデルに汎用的な自己改善を指導する
- Authors: Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie,
- Abstract要約: 本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。
提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。
実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
- 参考スコア(独自算出の注目度): 21.5605000515622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies post-training large language models (LLMs) using preference feedback from a powerful oracle to help a model iteratively improve over itself. The typical approach for post-training LLMs involves Reinforcement Learning from Human Feedback (RLHF), which traditionally separates reward learning and subsequent policy optimization. However, such a reward maximization approach is limited by the nature of "point-wise" rewards (such as Bradley-Terry model), which fails to express complex intransitive or cyclic preference relations. While advances on RLHF show reward learning and policy optimization can be merged into a single contrastive objective for stability, they yet still remain tethered to the reward maximization framework. Recently, a new wave of research sidesteps the reward maximization presumptions in favor of directly optimizing over "pair-wise" or general preferences. In this paper, we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm that marries the simplicity and stability of contrastive learning with theoretical generality from optimizing general preferences. Because DNO is a batched on-policy algorithm using a regression-based objective, its implementation is straightforward and efficient. Moreover, DNO enjoys monotonic improvement across iterations that help it improve even over a strong teacher (such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of 33% on AlpacaEval 2.0 (even after controlling for response length), an absolute gain of 26% (7% to 33%) over the initializing model. It outperforms models with far more parameters, including Mistral Large, Self-Rewarding LM (70B parameters), and older versions of GPT-4.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の学習後,強力なオラクルからの選好フィードバックを用いて,モデル自体を反復的に改善する手法を提案する。
ポストトレーニング LLM の典型的なアプローチは、伝統的に報酬学習とその後のポリシー最適化を分離するReinforcement Learning from Human Feedback (RLHF) である。
しかし、そのような報酬の最大化アプローチは「ポイントワイズ」報酬の性質(ブラッドリー・テリーモデルなど)によって制限される。
RLHFの進歩は、報酬学習と政策最適化を、安定のための単一の対照的な目標にマージできることを示しているが、それでも報酬の最大化フレームワークに結びついている。
近年,「ペアワイズ」や一般の嗜好を直接最適化することを優先して,報酬の最大化推定を推し進めている。
そこで本稿では,提案するアルゴリズムであるDirect Nash Optimization (DNO)を導入し,コントラスト学習の単純さと安定性を,一般の嗜好の最適化から理論的一般性にマージする。
DNOは回帰に基づく目的を用いたバッチオンポジーアルゴリズムであるため、その実装は単純で効率的である。
さらに、DNOは、強い教師(GPT-4など)でさえ改善するのに役立つイテレーション間で単調な改善を楽しみます。
実験では、7BパラメータOrca-2.5モデルがDNOと一致し、AlpacaEval 2.0上で33%のGPT-4-Turboに対して、初期化モデルに対して26%(7%から33%)の絶対ゲインを達成した。
Mistral Large、Self-Rewarding LM (70Bパラメータ)、古いバージョンのGPT-4など、はるかに多くのパラメータを持つモデルより優れている。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案手法は,GSM8K,MATH,SciQ上でのMistral-7B Supervised Fine-Tuning(SFT)ベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct
Preference Optimization [78.50294936259026]
我々は、最小限のオーバーヘッドで複数のアライメント目標に対して、MODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは言語モデリングを直接報酬モデリングに折り畳み、全ての目的を特定の重み付けと組み合わせた暗黙的な集団報酬モデル(cRM)としてLMを訓練する。
理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定で計算的に効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Reward Model Ensembles Help Mitigate Overoptimization [7.715463015544845]
RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。
真の」報酬の完全な表現として、学習された報酬モデルは過度に最適化される。
論文 参考訳(メタデータ) (2023-10-04T11:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。