論文の概要: Offline Preference Optimization via Maximum Marginal Likelihood Estimation
- arxiv url: http://arxiv.org/abs/2510.22881v1
- Date: Mon, 27 Oct 2025 00:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.571886
- Title: Offline Preference Optimization via Maximum Marginal Likelihood Estimation
- Title(参考訳): 最大辺縁類似度推定によるオフライン選好最適化
- Authors: Saeed Najafi, Alona Fyshe,
- Abstract要約: この研究は、Marginal Likelihoodの推定のレンズを通してアライメントをリキャストする。
我々の新しいMMLベースの優先度最適化(MMPO)は、好ましいテキスト出力の辺りのログ類似度を最大化する。
MMPOは、基本モデルの汎用言語能力をよりよく保ちつつ、競争力や優良な選好アライメントを実現する。
- 参考スコア(独自算出の注目度): 9.001971182501501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning Large Language Models (LLMs) with human preferences is crucial, but standard methods like Reinforcement Learning from Human Feedback (RLHF) are often complex and unstable. In this work, we propose a new, simpler approach that recasts alignment through the lens of Maximum Marginal Likelihood (MML) estimation. Our new MML based Preference Optimization (MMPO) maximizes the marginal log-likelihood of a preferred text output, using the preference pair as samples for approximation, and forgoes the need for both an explicit reward model and entropy maximization. We theoretically demonstrate that MMPO implicitly performs preference optimization, producing a weighted gradient that naturally up-weights chosen responses over rejected ones. Across models ranging from 135M to 8B parameters, we empirically show that MMPO: 1) is more stable with respect to the hyperparameter $\beta$ compared to alternative baselines, and 2) achieves competitive or superior preference alignment while better preserving the base model's general language capabilities. Through a series of ablation experiments, we show that this improved performance is indeed attributable to MMPO's implicit preference optimization within the gradient updates.
- Abstract(参考訳): 人間の好みによる大規模言語モデル(LLM)の調整は重要であるが、人間フィードバックからの強化学習(RLHF)のような標準的な手法はしばしば複雑で不安定である。
本稿では,MML(Maximum Marginal Likelihood)推定のレンズを通してアライメントをリキャストする,新しい,よりシンプルなアプローチを提案する。
我々の新しいMMLベースのPreference Optimization(MMPO)は、好みペアを近似のサンプルとして用いて、好みのテキスト出力の辺りのログライクさを最大化し、明示的な報酬モデルとエントロピーの最大化の両方の必要性を回避します。
理論上,MMPOが暗黙的に選好最適化を行ない,自然に選択された応答を拒否する重み付け勾配を生じることを実証する。
135Mから8Bパラメータの範囲でMMPOを実証的に示す。
1 は、代替ベースラインと比較して、ハイパーパラメータ $\beta$ に関してより安定である。
2) 基本モデルの汎用言語能力をよりよく保ちつつ、競争力や優良な選好アライメントを実現する。
一連のアブレーション実験を通して、この改良された性能は、勾配更新におけるMMPOの暗黙の選好最適化に起因することを示す。
関連論文リスト
- Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Length-Controlled Margin-Based Preference Optimization without Reference Model [11.878496378814045]
好みに基づく強化学習のためのLongth-Controlled Margin-Based Preference Optimization (LMPO)を提案する。
LMPOの重要な革新は、Bradley-Terryフレームワークに組み込まれたLongth-Controlled Marginベースの損失関数である。
実験の結果,LMPOは応答長を効果的に制御し,確率劣化を低減し,既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-20T15:30:27Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。