論文の概要: Divergence Minimization Preference Optimization for Diffusion Model Alignment
- arxiv url: http://arxiv.org/abs/2507.07510v1
- Date: Thu, 10 Jul 2025 07:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.31145
- Title: Divergence Minimization Preference Optimization for Diffusion Model Alignment
- Title(参考訳): 拡散モデルアライメントのためのダイバージェンス最小化推定最適化
- Authors: Binxu Li, Minkai Xu, Meihua Dang, Stefano Ermon,
- Abstract要約: Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
- 参考スコア(独自算出の注目度): 58.651951388346525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable success in generating realistic and versatile images from text prompts. Inspired by the recent advancements of language models, there is an increasing interest in further improving the models by aligning with human preferences. However, we investigate alignment from a divergence minimization perspective and reveal that existing preference optimization methods are typically trapped in suboptimal mean-seeking optimization. In this paper, we introduce Divergence Minimization Preference Optimization (DMPO), a novel and principled method for aligning diffusion models by minimizing reverse KL divergence, which asymptotically enjoys the same optimization direction as original RL. We provide rigorous analysis to justify the effectiveness of DMPO and conduct comprehensive experiments to validate its empirical strength across both human evaluations and automatic metrics. Our extensive results show that diffusion models fine-tuned with DMPO can consistently outperform or match existing techniques, specifically outperforming all existing diffusion alignment baselines by at least 64.6% in PickScore across all evaluation datasets, demonstrating the method's superiority in aligning generative behavior with desired outputs. Overall, DMPO unlocks a robust and elegant pathway for preference alignment, bridging principled theory with practical performance in diffusion models.
- Abstract(参考訳): 拡散モデルはテキストプロンプトからリアルで多目的な画像を生成することに成功している。
近年の言語モデルの発展に触発されて、人間の好みに合わせてモデルをさらに改良することへの関心が高まっている。
しかし, 偏差最小化の観点からのアライメントを検討した結果, 既存の選好最適化手法は, 概ね最適下平均探索最適化に捕らわれていることが明らかとなった。
本稿では,従来のRLと同じ最適化方向を漸近的に楽しむ逆KL発散を最小化することにより,拡散モデルの整列を最小化するための新しい原理的手法であるDiversergence Minimization Preference Optimization (DMPO)を紹介する。
我々は,DMPOの有効性を正当化する厳密な分析を行い,その実証的強度を人体評価と自動測定の両方で検証する包括的実験を行った。
DMPOで微調整された拡散モデルは既存の手法より一貫して優れ、特に既存の拡散アライメントベースラインを64.6%以上上回っており、生成挙動と所望の出力との整合性が優れていることを示す。
全体として、DMPOは優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実践的な性能を持つ原理的理論をブリッジする。
関連論文リスト
- Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design [53.93023688824764]
生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。
本稿では,拡散モデルによる任意の報酬関数の最適化を可能にする,反復蒸留に基づく微調整フレームワークを提案する。
KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
論文 参考訳(メタデータ) (2025-07-01T05:55:28Z) - Optimization-Free Diffusion Model -- A Perturbation Theory Approach [12.756355928431455]
拡散モデルは、生成モデリングの強力なフレームワークとして登場した。
最適化フリーとフォワードSDEフリーの両方の代替手法を提案する。
本研究では,高次元ボルツマン分布と実世界のデータセットに対する本手法の有効性を示す。
論文 参考訳(メタデータ) (2025-05-29T17:02:26Z) - Rethinking Direct Preference Optimization in Diffusion Models [15.358181258656229]
拡散に基づく選好最適化を改良する新しい手法を提案する。
まず、凍結参照モデルを緩和し、探索を促進する安定した参照モデル更新戦略を導入する。
第2に、タイムステップ間の報酬スケール不均衡問題を緩和するタイムステップ対応トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-05-24T15:14:45Z) - InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z) - Estimate-Then-Optimize versus Integrated-Estimation-Optimization versus Sample Average Approximation: A Stochastic Dominance Perspective [21.945745750737952]
モデルクラスが十分に特定され、十分なデータが存在する場合に、逆の振る舞いが現れることを示す。
また, 標準サンプル平均近似 (SAA) が, 後悔の点において, モデルクラスが適切に特定された場合に, 最悪の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-13T21:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。