論文の概要: TPMM-DPO: Trajectory-aware Preference-guided Model Merging for Iterative Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2605.23398v1
- Date: Fri, 22 May 2026 09:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.277446
- Title: TPMM-DPO: Trajectory-aware Preference-guided Model Merging for Iterative Direct Preference Optimization
- Title(参考訳): TPMM-DPO:反復的直接選好最適化のための軌道対応選好誘導モデルマージ
- Authors: Lingling Fu, Yongfu Xu,
- Abstract要約: 提案するTPMM-DPOは,軌道対応の嗜好誘導モデルマージ手法である。
従来の反復DPOとは対照的に、TPMM-DPOはノイズの好みによって引き起こされるエラーの蓄積を効果的に軽減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) has been widely adopted for large language model alignment due to its simple training procedure and lack of an explicit reward model. However, in iterative DPO, when the policy model from the previous iteration is repeatedly used as the reference model for subsequent rounds, noise in preference data and errors in the reference model accumulate over time. This accumulation can lead to late-stage over-optimization, performance fluctuations, and degraded generalization. To address these issues, we propose TPMM-DPO, a trajectory-aware preference-guided model merging method. The method treats the sequence of policy models generated during iterative DPO as an optimization trajectory and adaptively integrates them using learned fusion weights, thereby constructing a smoother and more robust reference model. In contrast to conventional iterative DPO, which relies solely on a single previous model, TPMM-DPO effectively mitigates error accumulation induced by noisy preferences and improves training stability. Experimental results show that standard iterative DPO often suffers from performance degradation in the middle and later stages of training, whereas TPMM-DPO consistently improves generation quality and achieves higher win rates and reward scores on both in-domain and out-of-domain evaluations. Further ablation studies and robustness analyses demonstrate that, compared with simple averaging, learnable-weight fusion more effectively alleviates late-stage performance degradation caused by noisy preferences.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、単純なトレーニング手順と明確な報酬モデルがないため、大規模な言語モデルのアライメントに広く採用されている。
しかし、反復DPOでは、後続のラウンドの基準モデルとして、前回のイテレーションからのポリシーモデルが繰り返し使用される場合、優先データのノイズと参照モデルのエラーは時間とともに蓄積される。
この蓄積は、後期の過最適化、性能変動、劣化した一般化につながる可能性がある。
これらの問題に対処するために,軌道対応の嗜好誘導モデルマージ手法であるTPMM-DPOを提案する。
この方法は、反復DPO中に生成されたポリシーモデルを最適化軌道として扱い、学習した融合重みを使ってそれらを適応的に統合することにより、より滑らかで堅牢な参照モデルを構築する。
1つの先行モデルのみに依存する従来の反復DPOとは対照的に、TPMM-DPOはノイズによるエラーの蓄積を効果的に軽減し、トレーニング安定性を向上させる。
実験結果から,標準反復型DPOは中・後期の訓練において性能劣化に悩まされることが多いのに対し,TPMM-DPOは連続的に生成品質を向上し,ドメイン内評価とドメイン外評価の両方において高い勝利率と報奨スコアが得られることがわかった。
さらなるアブレーション研究とロバストネス分析により、単純な平均化と比較すると、学習可能なウェイト融合はノイズによる後期的な性能劣化をより効果的に軽減することが示された。
関連論文リスト
- Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models [0.0]
我々はGate-DPO(Gradient-Gated Preference Optimization)を紹介する。
ゲート-DPOは、モデルの確率幾何学に従って無視された勾配を変調することで訓練を安定化する。
複数のアーキテクチャと選好データセットにわたる実験により、Gate-DPOは一貫してスキューズを減らし、選択応答の可能性を改善する。
論文 参考訳(メタデータ) (2026-05-04T14:15:24Z) - Beyond Reward Margin: Rethinking and Resolving Likelihood Displacement in Diffusion Models via Video Generation [6.597818816347323]
直接選好最適化は、選択されたサンプルと拒否されたサンプルを区別することにより、生成出力を人間の選好に合わせることを目的としている。
DPOの限界は、トレーニング中に選択されたサンプルの確率がパラドックス的に減少する確率変位である。
本稿では,Adaptive Rejection Scaling (ARS) と Implicit Preference Regularization (IPR) を組み合わせた新しいソリューションである Policy-Guided DPO を紹介する。
実験の結果,PG-DPOは測定値と定性評価の両方において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-11-24T12:37:49Z) - Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model [20.623037493149507]
提案するPre-DPO(Pre-DPO)は,指導基準モデルを活用することにより,嗜好最適化性能を向上させる,シンプルで効果的なDPOベースのトレーニングパラダイムである。
AlpacaEval 2.0とArena-Hard v0.1ベンチマークの大規模な実験は、Pre-DPOがDPOとSimPOの両方のパフォーマンスを一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-04-22T12:39:30Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。