論文の概要: Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.11245v1
- Date: Fri, 16 May 2025 13:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.163843
- Title: Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models
- Title(参考訳): 拡散-NPO:より良い拡散モデル生成のための負の選好最適化
- Authors: Fu-Yun Wang, Yunhao Shui, Jingtan Piao, Keqiang Sun, Hongsheng Li,
- Abstract要約: 既存の選好アライメント手法は、無条件/負条件の出力を扱う重要な役割を欠いていると論じる。
我々は、ネガティブな嗜好に特化して訓練されたモデルを訓練する、単純だが汎用的な効果的なアプローチを提案する。
提案手法は,SD1.5,SDXL,動画拡散モデル,選好最適化モデルなどのモデルとシームレスに統合する。
- 参考スコア(独自算出の注目度): 32.586647934400105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have made substantial advances in image generation, yet models trained on large, unfiltered datasets often yield outputs misaligned with human preferences. Numerous methods have been proposed to fine-tune pre-trained diffusion models, achieving notable improvements in aligning generated outputs with human preferences. However, we argue that existing preference alignment methods neglect the critical role of handling unconditional/negative-conditional outputs, leading to a diminished capacity to avoid generating undesirable outcomes. This oversight limits the efficacy of classifier-free guidance~(CFG), which relies on the contrast between conditional generation and unconditional/negative-conditional generation to optimize output quality. In response, we propose a straightforward but versatile effective approach that involves training a model specifically attuned to negative preferences. This method does not require new training strategies or datasets but rather involves minor modifications to existing techniques. Our approach integrates seamlessly with models such as SD1.5, SDXL, video diffusion models and models that have undergone preference optimization, consistently enhancing their alignment with human preferences.
- Abstract(参考訳): 拡散モデルは画像生成においてかなりの進歩を遂げているが、大規模でフィルタされていないデータセットで訓練されたモデルは、しばしば人間の好みと一致しないアウトプットを出力する。
事前学習した拡散モデルを微調整する多くの手法が提案され、生成した出力と人間の嗜好との整合性において顕著な改善が達成されている。
しかし, 従来の選好アライメント手法は, 無条件/負条件出力の処理において重要な役割を欠いているため, 望ましくない結果が発生するのを避ける能力は低下している。
この監視は、出力品質を最適化するために条件生成と非条件/負条件生成のコントラストに依存する分類器フリーガイダンス~(CFG)の有効性を制限する。
これに対し,本研究では,ネガティブな嗜好に特化して学習するモデルを訓練する,単純だが汎用的な効果的なアプローチを提案する。
この方法は、新しいトレーニング戦略やデータセットを必要としない。
提案手法は,SD1.5,SDXL,ビデオ拡散モデルなどのモデルとシームレスに統合され,人間の嗜好との整合性を一貫して向上させる。
関連論文リスト
- InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Preference Alignment with Flow Matching [23.042382086241364]
優先フローマッチング(PFM)は、好みに基づく強化学習(PbRL)のための新しいフレームワークである
事前訓練されたモデルの任意のクラスへの好みの統合を合理化する。
提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-05-30T08:16:22Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity [16.91835461818937]
本稿では,生成モデルと人間の嗜好を一致させる新しい手法を提案する。
そこで我々はDPOに対する期待最大化適応を提案し、アノテータの潜在選好型に基づくモデルの混合を生成する。
我々のアルゴリズムはDPOの単純さを生かし、多様な好みを調節する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。