論文の概要: SDPO: Importance-Sampled Direct Preference Optimization for Stable Diffusion Training
- arxiv url: http://arxiv.org/abs/2505.21893v1
- Date: Wed, 28 May 2025 02:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.36888
- Title: SDPO: Importance-Sampled Direct Preference Optimization for Stable Diffusion Training
- Title(参考訳): SDPO:安定拡散訓練における重要サンプル直接選好最適化
- Authors: Xiaomeng Yang, Zhiyu Tan, Junyan Wang, Zhijian Zhou, Hao Li,
- Abstract要約: 逆拡散過程と前方拡散過程のミスマッチに起因する時間ステップ依存性不安定性について検討した。
DPO-C&Mは,不定形タイムステップの切り抜きとマスキングにより安定性を向上させる実用戦略である。
次に、政治外バイアスを完全に補正する目的に重要サンプリングを組み込んだ、原則化されたフレームワークであるSDPOを紹介します。
- 参考スコア(独自算出の注目度): 11.9214528511348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference learning has become a central technique for aligning generative models with human expectations. Recently, it has been extended to diffusion models through methods like Direct Preference Optimization (DPO). However, existing approaches such as Diffusion-DPO suffer from two key challenges: timestep-dependent instability, caused by a mismatch between the reverse and forward diffusion processes and by high gradient variance in early noisy timesteps, and off-policy bias arising from the mismatch between optimization and data collection policies. We begin by analyzing the reverse diffusion trajectory and observe that instability primarily occurs at early timesteps with low importance weights. To address these issues, we first propose DPO-C\&M, a practical strategy that improves stability by clipping and masking uninformative timesteps while partially mitigating off-policy bias. Building on this, we introduce SDPO (Importance-Sampled Direct Preference Optimization), a principled framework that incorporates importance sampling into the objective to fully correct for off-policy bias and emphasize informative updates during the diffusion process. Experiments on CogVideoX-2B, CogVideoX-5B, and Wan2.1-1.3B demonstrate that both methods outperform standard Diffusion-DPO, with SDPO achieving superior VBench scores, human preference alignment, and training robustness. These results highlight the importance of timestep-aware, distribution-corrected optimization in diffusion-based preference learning.
- Abstract(参考訳): 嗜好学習は、生成モデルと人間の期待を一致させる中心的な技術となっている。
近年,DPO (Direct Preference Optimization) などの手法により拡散モデルに拡張されている。
しかし、Diffusion-DPOのような既存のアプローチは、逆拡散過程と前方拡散過程のミスマッチに起因する時間に依存した不安定さと、初期ノイズの時間ステップにおける高勾配のばらつき、最適化とデータ収集ポリシーのミスマッチに起因する政治外バイアスの2つの主要な課題に悩まされている。
まず, 逆拡散軌道の解析から, 重みの低い初期段階において, 不安定性が主に発生することを観察する。
これらの問題に対処するため,我々はまずDPO-C\&Mを提案する。
これに基づいてSDPO(Importance-Sampled Direct Preference Optimization)を導入し、重要サンプリングをオフ・ポリティクスバイアスを完全に補正し、拡散過程における情報的更新を強調する。
CogVideoX-2B、CogVideoX-5B、Wan2.1-1.3Bの実験では、両方の手法が標準拡散DPOよりも優れており、SDPOは優れたVBenchスコア、人間の嗜好アライメント、堅牢性を達成している。
これらの結果は,拡散に基づく嗜好学習における時間ステップ認識,分布補正による最適化の重要性を浮き彫りにした。
関連論文リスト
- Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning [43.74071631716718]
DICEに基づく手法は,行動分布から最適な政策分布への変換とみなすことができる。
本稿では拡散モデルを用いて直接この変換を行う新しい手法Diffusion-DICEを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:36:42Z) - FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
論文 参考訳(メタデータ) (2024-07-28T10:07:55Z) - Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T15:42:03Z) - Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。