Fugu-MT 論文翻訳(概要): SimPO: Simple Preference Optimization with a Reference-Free Reward

論文の概要: SimPO: Simple Preference Optimization with a Reference-Free Reward

arxiv url: http://arxiv.org/abs/2405.14734v3
Date: Fri, 01 Nov 2024 20:05:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.666387
Title: SimPO: Simple Preference Optimization with a Reference-Free Reward
Title（参考訳）: SimPO: 参照なしリワードによるシンプルな参照最適化
Authors: Yu Meng, Mengzhou Xia, Danqi Chen,
Abstract要約: 直接選好最適化 (DPO) は、広く使われているオフライン選好最適化アルゴリズムである。我々はDPOに対するよりシンプルで効果的なアプローチであるSimPOを提案する。 SimPO は、応答長を大幅に増加させることなく、DPO を一貫して大幅に上回る。
参考スコア（独自算出の注目度）: 43.136307294076545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Direct Preference Optimization (DPO) is a widely used offline preference optimization algorithm that reparameterizes reward functions in reinforcement learning from human feedback (RLHF) to enhance simplicity and training stability. In this work, we propose SimPO, a simpler yet more effective approach. The effectiveness of SimPO is attributed to a key design: using the average log probability of a sequence as the implicit reward. This reward formulation better aligns with model generation and eliminates the need for a reference model, making it more compute and memory efficient. Additionally, we introduce a target reward margin to the Bradley-Terry objective to encourage a larger margin between the winning and losing responses, further improving the algorithm's performance. We compare SimPO to DPO and its latest variants across various state-of-the-art training setups, including both base and instruction-tuned models such as Mistral, Llama 3, and Gemma 2. We evaluate on extensive chat-based evaluation benchmarks, including AlpacaEval 2, MT-Bench, and Arena-Hard. Our results demonstrate that SimPO consistently and significantly outperforms existing approaches without substantially increasing response length. Specifically, SimPO outperforms DPO by up to 6.4 points on AlpacaEval 2 and by up to 7.5 points on Arena-Hard. Our top-performing model, built on Gemma-2-9B-it, achieves a 72.4% length-controlled win rate on AlpacaEval 2, a 59.1% win rate on Arena-Hard, and ranks 1st on Chatbot Arena among <10B models with real user votes.
Abstract（参考訳）: 直接選好最適化 (DPO) は、人間のフィードバック(RLHF)からの強化学習における報酬関数を再パラメータ化し、単純さと訓練安定性を高めるために広く使われているオフライン選好最適化アルゴリズムである。本研究では,よりシンプルかつ効果的なアプローチであるSimPOを提案する。 SimPOの有効性は重要な設計によるもので、シーケンスの平均ログ確率を暗黙の報酬として使用する。この報酬の定式化はモデル生成と整合性を高め、参照モデルの必要性を排除し、より計算とメモリ効率を高める。さらに、Bradley-Terry目標に対して目標報酬マージンを導入し、勝利と負けのマージンを大きくし、アルゴリズムの性能をさらに向上させる。我々は、Mistral、Llama 3、Gemma 2といったベースモデルと命令チューニングモデルを含む、様々な最先端のトレーニング設定におけるSimPOとDPOの最新のバリエーションを比較した。本稿では,AlpacaEval 2,MT-Bench,Arena-Hardなどのチャットベースの評価ベンチマークについて検討した。以上の結果から,SimPOは応答長を大幅に増加させることなく,既存のアプローチよりも一貫して,はるかに優れていたことが示唆された。具体的には、AlpacaEval 2では最大6.4ポイント、Arena-Hardでは最大7.5ポイントでDPOを上回っている。私たちのトップパフォーマンスモデルはGemma-2-9B-it上に構築され、AlpacaEval 2で72.4%、Arena-Hardで59.1%、Chatbot Arenaで10Bモデルで1位となっている。

関連論文リスト

URPO: A Unified Reward & Policy Optimization Framework for Large Language Models [10.511836918064724]
本稿では,1つのモデルと1つのトレーニングフェーズにおいて,命令フォロー(プレイヤ)と報酬モデリング(参照)を統一する新しいフレームワークを提案する。提案手法は,全てのアライメントデータを含む選好ペア,検証可能な推論,オープンな命令を統一された生成形式に再キャストする。 Qwen2.5-7Bモデルの実験はURPOの優位性を示している。
論文参考訳（メタデータ） (2025-07-23T13:52:27Z)
TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。 GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文参考訳（メタデータ） (2025-06-05T15:56:38Z)
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文参考訳（メタデータ） (2025-02-24T04:22:57Z)
Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective [22.248134630764497]
ガンマパラメータによって制御される時間減衰係数を組み込んだ改良された選好最適化法を提案する。我々のアプローチは、過度な適合を減らし、人間の好みの進化に反応し続けます。
論文参考訳（メタデータ） (2025-02-20T07:53:11Z)
R.I.P.: Better Models by Survival of the Fittest Prompts [51.2293437372642]
本稿では,低品質入力が高ばらつきと低品質応答をもたらすという仮定に基づいて,データの完全性を評価する手法を提案する。これは、拒否された応答品質と、選択された選好対と拒否された選好対の間の報酬ギャップを測定することで達成される。
論文参考訳（メタデータ） (2025-01-30T18:50:25Z)
AlphaPO -- Reward shape matters for LLM alignment [8.753297661521007]
textbfAlphaPOは、標準的なログ報酬以外の報酬関数の形状を変えるのに役立つ新しいDAAである。最高のパフォーマンスを持つDAAの1つであるSimPOと比較して、AlphaPOはアライメント性能が7%から10%向上した。
論文参考訳（メタデータ） (2025-01-07T15:46:42Z)
Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
本稿では、2人のプレーヤー間の非対称ゲームとしてアライメントをキャストする一般オープンエンドなRLHFフレームワークを提案する。 Asymmetric Self-Play (eva) によるアライメントの進化(Evolving Alignment)というこのフレームワークは、既存のRLHFアルゴリズムを拡張性のあるアライメントに利用できるシンプルで効率的なアプローチをもたらす。
論文参考訳（メタデータ） (2024-10-31T08:15:32Z)
General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳（メタデータ） (2024-10-03T04:22:55Z)
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。 LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文参考訳（メタデータ） (2024-06-30T08:00:34Z)
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文参考訳（メタデータ） (2024-06-17T17:55:38Z)
Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。 DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文参考訳（メタデータ） (2024-06-14T06:57:18Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences [21.5605000515622]
本稿では,大言語モデル(LLM)の学習後,オラクルからの嗜好フィードバックを用いて,モデル自体を反復的に改善する手法について検討する。提案手法は,理論的な一般化と対照的な学習の単純さと安定性を,一般の選好の最適化からマージする,証明可能かつ効率的なアルゴリズムである。実験で得られた 7B パラメータ Orca-2.5 モデルは,AlpacaE 2.0 上で 33% の GPT-4-Turbo に対して,初期化モデルに対して 26% (7% から 33%) の絶対ゲインを達成した。
論文参考訳（メタデータ） (2024-04-04T17:56:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。