論文の概要: MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge
- arxiv url: http://arxiv.org/abs/2507.21183v1
- Date: Sun, 27 Jul 2025 05:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.051099
- Title: MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge
- Title(参考訳): MaPPO: 事前知識を用いた事後選好最適化の最大化
- Authors: Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton,
- Abstract要約: 本稿では,好みから学習するフレームワークであるPosteriori Preference Optimization (MaPPO)を提案する。
MaPPOは、事前の報酬推定値を、原則的最大値MaP(Posteriori)目標に統合する。
MaPPOはDPOの亜種を一貫して改善したプラグインとして使用できる。
- 参考スコア(独自算出の注目度): 35.703451475662995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the era of large language models (LLMs) on behalf of users unfolds, Preference Optimization (PO) methods have become a central approach to aligning LLMs with human preferences and improving performance. We propose Maximum a Posteriori Preference Optimization (MaPPO), a framework for learning from preferences that explicitly incorporates prior reward knowledge into the optimization objective. While existing methods such as Direct Preference Optimization (DPO) and its variants treat preference learning as a Maximum Likelihood Estimation (MLE) problem, MaPPO extends this paradigm by integrating prior reward estimates into a principled Maximum a Posteriori (MaP) objective. This not only generalizes DPO and its variants, but also enhances alignment by mitigating the oversimplified binary classification of responses. More importantly, MaPPO introduces no additional hyperparameter, and supports preference optimization in both offline and online settings. In addition, MaPPO can be used as a plugin with consistent improvement on DPO variants, including widely used SimPO, IPO, and CPO. Extensive empirical evaluations of different model sizes and model series on three standard benchmarks, including MT-Bench, AlpacaEval 2.0, and Arena-Hard, demonstrate consistent improvements in alignment performance without sacrificing computational efficiency.
- Abstract(参考訳): ユーザに代わって大規模言語モデル(LLM)が普及するにつれ、優先度最適化(PO)手法はLLMを人間の好みに合わせる中心的なアプローチとなり、性能が向上した。
本稿では,事前報酬知識を最適化対象に明示的に組み込んだ選好から学習するフレームワークであるPosteriori Preference Optimization (MaPPO)を提案する。
直接選好最適化(DPO)などの既存手法では、選好学習を最大選好推定(MLE)問題として扱うが、MaPPOは、事前報奨推定を原理化された最大選好(MaP)目標に統合することにより、このパラダイムを拡張している。
これはDPOとその変種を一般化するだけでなく、過度に単純化された応答のバイナリ分類を緩和することでアライメントを強化する。
さらに重要なのは、MaPPOが追加のハイパーパラメータを導入せず、オフライン設定とオンライン設定の両方で好みの最適化をサポートすることだ。
さらに、MaPPOは、広く使われているSimPO、IPO、CPOなど、DPOの亜種を一貫して改善したプラグインとして使用することができる。
MT-Bench、AlpacaEval 2.0、Arena-Hardを含む3つの標準ベンチマークでは、計算効率を犠牲にすることなくアライメント性能が一貫した改善を示した。
関連論文リスト
- AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models [18.249363312256722]
AMoPOは、選好次元間の動的バランスを実現する新しいフレームワークである。
本稿では,次元認識尺度を暗黙の報酬として用いるために,多目的最適化パラダイムを導入する。
実証的な結果は、AMoPOが最先端のベースラインを28.5%上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-08T14:31:06Z) - ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning [14.034412856423529]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合性において,その単純さと計算効率に注目されている。
最近の進歩はDPOをマルチモーダルシナリオに拡張し、高いパフォーマンスを実現している。
従来のDPOは、細かなセグメントの正しさを考慮せずに、二分選好の最適化、報酬、全応答のペナルティ化に依存している。
本稿では、より正確な選好最適化のために個々の文を評価する適応文レベルの選好最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-05-25T11:33:08Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings [40.605411087380226]
我々は、モデルがすでに正しくランク付けできるようなペアの理解を高めることを優先するDPO変種であるFocalPOを紹介した。
視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
論文 参考訳(メタデータ) (2025-01-11T21:41:27Z) - MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。
Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。
実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-13T14:18:58Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。