論文の概要: Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization
- arxiv url: http://arxiv.org/abs/2406.04314v3
- Date: Tue, 25 Mar 2025 17:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:49:46.389756
- Title: Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization
- Title(参考訳): ステップバイステップ選好最適化を用いたジェネリック選好からの学習後拡散モデル
- Authors: Zhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Mingxi Cheng, Ji Li, Liang Zheng,
- Abstract要約: 本稿では,経済的に美学を改善するために,ステップバイステップ優先最適化(SPO)を提案する。
SPOは伝播戦略を捨て、きめ細かい画像の詳細を評価できる。
SPOは、ステップアウェアの選好モデルによって提供されるより正確な選好ラベルを使用することにより、DPO法よりもはるかに高速に収束する。
- 参考スコア(独自算出の注目度): 20.698818784349015
- License:
- Abstract: Generating visually appealing images is fundamental to modern text-to-image generation models. A potential solution to better aesthetics is direct preference optimization (DPO), which has been applied to diffusion models to improve general image quality including prompt alignment and aesthetics. Popular DPO methods propagate preference labels from clean image pairs to all the intermediate steps along the two generation trajectories. However, preference labels provided in existing datasets are blended with layout and aesthetic opinions, which would disagree with aesthetic preference. Even if aesthetic labels were provided (at substantial cost), it would be hard for the two-trajectory methods to capture nuanced visual differences at different steps. To improve aesthetics economically, this paper uses existing generic preference data and introduces step-by-step preference optimization (SPO) that discards the propagation strategy and allows fine-grained image details to be assessed. Specifically, at each denoising step, we 1) sample a pool of candidates by denoising from a shared noise latent, 2) use a step-aware preference model to find a suitable win-lose pair to supervise the diffusion model, and 3) randomly select one from the pool to initialize the next denoising step. This strategy ensures that diffusion models focus on the subtle, fine-grained visual differences instead of layout aspect. We find that aesthetics can be significantly enhanced by accumulating these improved minor differences. When fine-tuning Stable Diffusion v1.5 and SDXL, SPO yields significant improvements in aesthetics compared with existing DPO methods while not sacrificing image-text alignment compared with vanilla models. Moreover, SPO converges much faster than DPO methods due to the use of more correct preference labels provided by the step-aware preference model.
- Abstract(参考訳): 視覚的に魅力的な画像を生成することは、現代のテキスト・画像生成モデルに不可欠である。
より良い美学のための潜在的な解決策は、拡散モデルに適用され、迅速なアライメントや美学を含む一般的な画像品質を改善するために、直接選好最適化(DPO)である。
人気のあるDPO法は、クリーンな画像対から2世代軌跡に沿ったすべての中間段階への選好ラベルを伝搬する。
しかし、既存のデータセットで提供される嗜好ラベルは、レイアウトと美的意見が混ざり合っており、美的好みとは相容れない。
審美ラベルが提供されても(相当なコストで)、2つの軌跡法が異なるステップで微妙な視覚的差異を捉えることは困難である。
経済的に美学を改善するために,既存の嗜好データを用いて,伝播戦略を捨て,きめ細かい画像の詳細を評価できるステップバイステップ選好最適化(SPO)を導入する。
具体的には、各段階において、私たちは
1)共有雑音消音器から雑音を除去して候補者のプールをサンプリングすること。
2) 段階対応選好モデルを用いて、拡散モデルを監督する適切なウィンローペアを見つけ、
3) 次のdenoisingステップを初期化するために、プールからランダムに1つを選択する。
この戦略により、拡散モデルはレイアウトの側面ではなく微妙できめ細かな視覚的差異に焦点を当てる。
これらの改善された微妙な違いを蓄積することにより,審美性を大幅に向上できることがわかった。
安定拡散 v1.5 と SDXL を微調整すると、SPO はバニラモデルに比べて画像テキストアライメントを犠牲にすることなく、既存の DPO 法に比べて美学の大幅な改善をもたらす。
さらに、ステップアウェアの選好モデルによって提供されるより正確な選好ラベルを使用することにより、SPOはDPO法よりもはるかに高速に収束する。
関連論文リスト
- Dual Caption Preference Optimization for Diffusion Models [51.223275938663235]
本稿では,2つの異なるキャプションを用いて無関係なプロンプトを緩和する手法であるDual Caption Preference Optimization (DCPO)を提案する。
実験の結果,DCPOは画像品質とプロンプトとの関係を著しく改善し,SFT_Chosen,Diffusion-DPO,MaPOを複数の指標で比較した。
論文 参考訳(メタデータ) (2025-02-09T20:34:43Z) - Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization [46.888425016169144]
拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
従来の方法では、ビジョンランゲージモデル(VLM)を画素レベルの報酬モデルとして活用し、人間の好みを近似する。
本研究では,拡散モデルが潜伏空間におけるステップレベルの報酬モデリングに本質的に適していることを示す。
本稿では,遅延空間において,ステップレベルの優先度最適化を直接的に行う手法であるLatent Preference Optimization (LPO)を紹介する。
論文 参考訳(メタデータ) (2025-02-03T04:51:28Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。