論文の概要: Rethinking Direct Preference Optimization in Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.18736v1
- Date: Sat, 24 May 2025 15:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.627913
- Title: Rethinking Direct Preference Optimization in Diffusion Models
- Title(参考訳): 拡散モデルにおける直接選好最適化の再考
- Authors: Junyong Kang, Seohyun Lim, Kyungjune Baek, Hyunjung Shim,
- Abstract要約: 拡散に基づく選好最適化を改良する新しい手法を提案する。
まず、凍結参照モデルを緩和し、探索を促進する安定した参照モデル更新戦略を導入する。
第2に、タイムステップ間の報酬スケール不均衡問題を緩和するタイムステップ対応トレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 15.358181258656229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning text-to-image (T2I) diffusion models with human preferences has emerged as a critical research challenge. While recent advances in this area have extended preference optimization techniques from large language models (LLMs) to the diffusion setting, they often struggle with limited exploration. In this work, we propose a novel and orthogonal approach to enhancing diffusion-based preference optimization. First, we introduce a stable reference model update strategy that relaxes the frozen reference model, encouraging exploration while maintaining a stable optimization anchor through reference model regularization. Second, we present a timestep-aware training strategy that mitigates the reward scale imbalance problem across timesteps. Our method can be integrated into various preference optimization algorithms. Experimental results show that our approach improves the performance of state-of-the-art methods on human preference evaluation benchmarks.
- Abstract(参考訳): 人間の好みを持つテキスト・ツー・イメージ(T2I)拡散モデルが重要な研究課題として浮上している。
この領域の最近の進歩は、大規模言語モデル(LLM)から拡散設定まで、好みの最適化技術を拡張してきたが、しばしば限定的な探索に苦慮している。
本研究では,拡散に基づく選好最適化の高度化に向けた,新しい直交的アプローチを提案する。
まず、凍結参照モデルを緩和し、参照モデル正規化による安定した最適化アンカーを維持しながら探索を奨励する安定した参照モデル更新戦略を導入する。
第2に、タイムステップ間の報酬スケール不均衡問題を緩和するタイムステップ対応トレーニング戦略を提案する。
本手法は様々な選好最適化アルゴリズムに組み込むことができる。
実験結果から,人間の嗜好評価ベンチマークにおける最先端手法の性能向上が示唆された。
関連論文リスト
- InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization [49.302188710680866]
拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
事前学習した拡散モデルは,ノイズのある潜在空間におけるステップレベルの報酬モデルに自然に適していることを示す。
雑音の多い遅延空間で直接実行されるステップレベルの優先度最適化手法であるLatent Preference Optimization (LPO)を導入する。
論文 参考訳(メタデータ) (2025-02-03T04:51:28Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。