論文の概要: SimPO: Simple Preference Optimization with a Reference-Free Reward
- arxiv url: http://arxiv.org/abs/2405.14734v2
- Date: Mon, 8 Jul 2024 17:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 01:29:45.272890
- Title: SimPO: Simple Preference Optimization with a Reference-Free Reward
- Title(参考訳): SimPO: 参照なしリワードによるシンプルな参照最適化
- Authors: Yu Meng, Mengzhou Xia, Danqi Chen,
- Abstract要約: 直接選好最適化は、広く使われているオフライン選好最適化アルゴリズムである。
我々はDPOに対するよりシンプルで効果的なアプローチであるSimPOを提案する。
SimPO は、応答長を大幅に増加させることなく、DPO を一貫して大幅に上回る。
- 参考スコア(独自算出の注目度): 43.136307294076545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) is a widely used offline preference optimization algorithm that reparameterizes reward functions in reinforcement learning from human feedback (RLHF) to enhance simplicity and training stability. In this work, we propose SimPO, a simpler yet more effective approach. The effectiveness of SimPO is attributed to a key design: using the average log probability of a sequence as the implicit reward. This reward formulation better aligns with model generation and eliminates the need for a reference model, making it more compute and memory efficient. Additionally, we introduce a target reward margin to the Bradley-Terry objective to encourage a larger margin between the winning and losing responses, further enhancing the algorithm's performance. We compare SimPO to DPO and its latest variants across various state-of-the-art training setups, including both base and instruction-tuned models like Mistral and Llama3. We evaluated on extensive instruction-following benchmarks, including AlpacaEval 2, MT-Bench, and the recent challenging Arena-Hard benchmark. Our results demonstrate that SimPO consistently and significantly outperforms existing approaches without substantially increasing response length. Specifically, SimPO outperforms DPO by up to 6.4 points on AlpacaEval 2 and by up to 7.5 points on Arena-Hard. Our top-performing model, built on Llama3-8B-Instruct, achieves a remarkable 53.7 length-controlled win rate on AlpacaEval 2 -- surpassing Claude 3 Opus on the leaderboard, and a 36.5 win rate on Arena-Hard -- making it the strongest 8B open-source model.
- Abstract(参考訳): 直接選好最適化 (DPO) は、人間のフィードバック(RLHF)からの強化学習における報酬関数を再パラメータ化し、単純さと訓練安定性を高めるために広く使われているオフライン選好最適化アルゴリズムである。
本研究では,よりシンプルかつ効果的なアプローチであるSimPOを提案する。
SimPOの有効性は重要な設計によるもので、シーケンスの平均ログ確率を暗黙の報酬として使用する。
この報酬の定式化はモデル生成と整合性を高め、参照モデルの必要性を排除し、より計算とメモリ効率を高める。
さらに、Bradley-Terry目標に対して目標報酬マージンを導入し、勝利と負けのマージンを大きくし、アルゴリズムの性能をさらに向上させる。
私たちはSimPOとDPOを比較し、MistralやLlama3といったベースモデルとインストラクションチューニングモデルを含む、最先端のトレーニング設定の最新のバリエーションを比較します。
本稿では,AlpacaEval 2 MT-Bench,最近のアレナ・ハードベンチマークなど,広範囲な命令追従ベンチマークについて検討した。
以上の結果から,SimPOは応答長を大幅に増加させることなく,既存のアプローチよりも一貫して,はるかに優れていたことが示唆された。
具体的には、AlpacaEval 2では最大6.4ポイント、Arena-Hardでは最大7.5ポイントでDPOを上回っている。
私たちのトップパフォーマンスモデルは、Llama3-8B-Instruct上に構築され、AlpacaEval 2で53.7の勝利率、リーダーボードでClaude 3 Opusを上回り、Arena-Hardで36.5の勝利率を達成し、最も強力な8Bオープンソースモデルとなった。
関連論文リスト
- Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective [22.248134630764497]
ガンマパラメータによって制御される時間減衰係数を組み込んだ改良された選好最適化法を提案する。
我々のアプローチは、過度な適合を減らし、人間の好みの進化に反応し続けます。
論文 参考訳(メタデータ) (2025-02-20T07:53:11Z) - R.I.P.: Better Models by Survival of the Fittest Prompts [51.2293437372642]
本稿では,低品質入力が高ばらつきと低品質応答をもたらすという仮定に基づいて,データの完全性を評価する手法を提案する。
これは、拒否された応答品質と、選択された選好対と拒否された選好対の間の報酬ギャップを測定することで達成される。
論文 参考訳(メタデータ) (2025-01-30T18:50:25Z) - AlphaPO - Reward shape matters for LLM alignment [8.688476316386176]
textbfAlphaPOは、標準的なログ報酬以外の報酬関数の形状を変えるのに役立つ新しいDAAである。
最高のパフォーマンスを持つDAAの1つであるSimPOと比較して、AlphaPOはアライメント性能が7%から10%向上した。
論文 参考訳(メタデータ) (2025-01-07T15:46:42Z) - Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
本稿では、2人のプレーヤー間の非対称ゲームとしてアライメントをキャストする一般オープンエンドなRLHFフレームワークを提案する。
Asymmetric Self-Play (eva) によるアライメントの進化(Evolving Alignment)というこのフレームワークは、既存のRLHFアルゴリズムを拡張性のあるアライメントに利用できるシンプルで効率的なアプローチをもたらす。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。
具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:38Z) - Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。
本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。
DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-14T06:57:18Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。