論文の概要: Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization
- arxiv url: http://arxiv.org/abs/2406.04314v2
- Date: Fri, 06 Dec 2024 17:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:53:40.569481
- Title: Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization
- Title(参考訳): ステップバイステップ選好最適化を用いたジェネリック選好からの学習後拡散モデル
- Authors: Zhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Mingxi Cheng, Ji Li, Liang Zheng,
- Abstract要約: 本稿では,経済的に美学を改善するために,ステップバイステップ優先最適化(SPO)を提案する。
SPOは伝播戦略を捨て、きめ細かい画像の詳細を評価できる。
SPOは、細かな視覚的詳細のステップバイステップアライメントのため、DPO法よりもはるかに高速に収束する。
- 参考スコア(独自算出の注目度): 20.698818784349015
- License:
- Abstract: Generating visually appealing images is fundamental to modern text-to-image generation models. A potential solution to better aesthetics is direct preference optimization (DPO), which has been applied to diffusion models to improve general image quality including prompt alignment and aesthetics. Popular DPO methods propagate preference labels from clean image pairs to all the intermediate steps along the two generation trajectories. However, preference labels provided in existing datasets are blended with layout and aesthetic opinions, which would disagree with aesthetic preference. Even if aesthetic labels were provided (at substantial cost), it would be hard for the two-trajectory methods to capture nuanced visual differences at different steps. To improve aesthetics economically, this paper uses existing generic preference data and introduces step-by-step preference optimization (SPO) that discards the propagation strategy and allows fine-grained image details to be assessed. Specifically, at each denoising step, we 1) sample a pool of candidates by denoising from a shared noise latent, 2) use a step-aware preference model to find a suitable win-lose pair to supervise the diffusion model, and 3) randomly select one from the pool to initialize the next denoising step. This strategy ensures that the diffusion models to focus on the subtle, fine-grained visual differences instead of layout aspect. We find that aesthetic can be significantly enhanced by accumulating these improved minor differences. When fine-tuning Stable Diffusion v1.5 and SDXL, SPO yields significant improvements in aesthetics compared with existing DPO methods while not sacrificing image-text alignment compared with vanilla models. Moreover, SPO converges much faster than DPO methods due to the step-by-step alignment of fine-grained visual details. Code and models are available at https://github.com/RockeyCoss/SPO.
- Abstract(参考訳): 視覚的に魅力的な画像を生成することは、現代のテキスト・画像生成モデルに不可欠である。
より良い美学のための潜在的な解決策は、拡散モデルに適用され、迅速なアライメントや美学を含む一般的な画像品質を改善するために、直接選好最適化(DPO)である。
人気のあるDPO法は、クリーンな画像対から2世代軌跡に沿ったすべての中間段階への選好ラベルを伝搬する。
しかし、既存のデータセットで提供される嗜好ラベルは、レイアウトと美的意見が混ざり合っており、美的好みとは相容れない。
審美ラベルが提供されても(相当なコストで)、2つの軌跡法が異なるステップで微妙な視覚的差異を捉えることは困難である。
経済的に美学を改善するために,既存の嗜好データを用いて,伝播戦略を捨て,きめ細かい画像の詳細を評価できるステップバイステップ選好最適化(SPO)を導入する。
具体的には、各段階において、私たちは
1)共有雑音消音器から雑音を除去して候補者のプールをサンプリングすること。
2) 段階対応選好モデルを用いて、拡散モデルを監督する適切なウィンローペアを見つけ、
3) 次のdenoisingステップを初期化するために、プールからランダムに1つを選択する。
この戦略により、拡散モデルはレイアウトの側面ではなく微妙できめ細かな視覚的違いに焦点を合わせることができる。
これらの改善された微妙な違いを蓄積することにより,審美性を大幅に向上できることがわかった。
安定拡散 v1.5 と SDXL を微調整すると、SPO はバニラモデルに比べて画像テキストアライメントを犠牲にすることなく、既存の DPO 法に比べて美学の大幅な改善をもたらす。
さらに、細かな視覚的詳細のステップバイステップアライメントにより、SPOはDPO法よりもはるかに高速に収束する。
コードとモデルはhttps://github.com/RockeyCoss/SPO.comで公開されている。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
論文 参考訳(メタデータ) (2024-07-28T10:07:55Z) - Beta Sampling is All You Need: Efficient Image Generation Strategy for Diffusion Models using Stepwise Spectral Analysis [22.02829139522153]
拡散過程の画像スペクトル解析に基づく効率的な時間ステップサンプリング法を提案する。
従来の均一分布に基づく時間ステップサンプリングの代わりに,ベータ分布のようなサンプリング手法を導入する。
我々の仮説では、あるステップは画像の内容に大きな変化を示すが、他のステップは最小限に寄与する。
論文 参考訳(メタデータ) (2024-07-16T20:53:06Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - Score Priors Guided Deep Variational Inference for Unsupervised
Real-World Single Image Denoising [14.486289176696438]
本稿では,実世界の実演のためのスコア先行誘導深部変分推論,すなわちScoreDVIを提案する。
我々は、実世界の雑音をモデル化するために、非i.i.d$ガウス混合モデルと変分ノイズ後部モデルを利用する。
提案手法は,他の単一画像ベースの実世界のデノベーション手法よりも優れ,データセットベースの教師なし手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2023-08-09T03:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。