論文の概要: Beyond Reward Margin: Rethinking and Resolving Likelihood Displacement in Diffusion Models via Video Generation
- arxiv url: http://arxiv.org/abs/2511.19049v1
- Date: Mon, 24 Nov 2025 12:37:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.193614
- Title: Beyond Reward Margin: Rethinking and Resolving Likelihood Displacement in Diffusion Models via Video Generation
- Title(参考訳): Reward Margin:ビデオ生成による拡散モデルにおける相違点の再考と解消
- Authors: Ruojun Xu, Yu Kai, Xuhua Ren, Jiaxiang Cheng, Bing Ma, Tianxiang Zheng, Qinhlin Lu,
- Abstract要約: 直接選好最適化は、選択されたサンプルと拒否されたサンプルを区別することにより、生成出力を人間の選好に合わせることを目的としている。
DPOの限界は、トレーニング中に選択されたサンプルの確率がパラドックス的に減少する確率変位である。
本稿では,Adaptive Rejection Scaling (ARS) と Implicit Preference Regularization (IPR) を組み合わせた新しいソリューションである Policy-Guided DPO を紹介する。
実験の結果,PG-DPOは測定値と定性評価の両方において既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 6.597818816347323
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Direct Preference Optimization (DPO) has shown promising results in aligning generative outputs with human preferences by distinguishing between chosen and rejected samples. However, a critical limitation of DPO is likelihood displacement, where the probabilities of chosen samples paradoxically decrease during training, undermining the quality of generation. Although this issue has been investigated in autoregressive models, its impact within diffusion-based models remains largely unexplored. This gap leads to suboptimal performance in tasks involving video generation. To address this, we conduct a formal analysis of DPO loss through updating policy within the diffusion framework, which describes how the updating of specific training samples influences the model's predictions on other samples. Using this tool, we identify two main failure modes: (1) Optimization Conflict, which arises from small reward margins between chosen and rejected samples, and (2) Suboptimal Maximization, caused by large reward margins. Informed by these insights, we introduce a novel solution named Policy-Guided DPO (PG-DPO), combining Adaptive Rejection Scaling (ARS) and Implicit Preference Regularization (IPR) to effectively mitigate likelihood displacement. Experiments show that PG-DPO outperforms existing methods in both quantitative metrics and qualitative evaluations, offering a robust solution for improving preference alignment in video generation tasks.
- Abstract(参考訳): 直接選好最適化(DPO)は、選択されたサンプルと拒否されたサンプルを区別することにより、生成出力を人間の選好と整合させる有望な結果を示した。
しかし、DPOの限界は、選択されたサンプルの確率が訓練中にパラドックス的に減少し、生成の質を損なう確率変位である。
この問題は自己回帰モデルで研究されているが、拡散モデルにおける影響は未解明のままである。
このギャップは、ビデオ生成に関わるタスクにおいて、最適以下のパフォーマンスをもたらす。
これを解決するために,拡散フレームワーク内のポリシーを更新することでDPO損失の形式的解析を行い,特定のトレーニングサンプルの更新が他のサンプルに対するモデルの予測にどのように影響するかを説明する。
このツールを用いて,(1)選択されたサンプルと拒絶されたサンプルの間に小さな報酬マージンから生じる最適化競合と,(2)大きな報酬マージンに起因するサブ最適最大化の2つの主要な障害モードを同定する。
これらの知見を反映して,Adaptive Rejection Scaling (ARS) と Implicit Preference Regularization (IPR) を併用したポリシガイド型 DPO (PG-DPO) という新しい手法を導入する。
実験により、PG-DPOは、定量測定と定性評価の両方において既存の手法よりも優れており、ビデオ生成タスクにおける嗜好調整を改善するための堅牢なソリューションを提供する。
関連論文リスト
- G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - When Preferences Diverge: Aligning Diffusion Models with Minority-Aware Adaptive DPO [66.10041557056562]
本稿では,拡散モデルの学習過程における嗜好データの役割について考察する。
本稿では,DPOの目的にマイノリティー・インスタンス・アウェア・メトリックを組み込んだ新しいアプローチであるAdaptive-DPOを提案する。
提案手法は,合成マイノリティデータと実世界の嗜好データの両方を効果的に扱うことを示す。
論文 参考訳(メタデータ) (2025-03-21T07:33:44Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。