論文の概要: Aligning Diffusion Models with Noise-Conditioned Perception
- arxiv url: http://arxiv.org/abs/2406.17636v1
- Date: Tue, 25 Jun 2024 15:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:51:04.528227
- Title: Aligning Diffusion Models with Noise-Conditioned Perception
- Title(参考訳): 雑音を考慮した拡散モデル
- Authors: Alexander Gambashidze, Anton Kulikov, Yuriy Sosnin, Ilya Makarov,
- Abstract要約: 拡散モデルは通常、ピクセルまたはVAE空間で最適化されるが、人間の知覚とうまく一致しない。
本稿では,これらの問題に対処するために,拡散モデルのU-Net埋め込み空間における知覚的目的を用いることを提案する。
- 参考スコア(独自算出の注目度): 42.042822966928576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in human preference optimization, initially developed for Language Models (LMs), have shown promise for text-to-image Diffusion Models, enhancing prompt alignment, visual appeal, and user preference. Unlike LMs, Diffusion Models typically optimize in pixel or VAE space, which does not align well with human perception, leading to slower and less efficient training during the preference alignment stage. We propose using a perceptual objective in the U-Net embedding space of the diffusion model to address these issues. Our approach involves fine-tuning Stable Diffusion 1.5 and XL using Direct Preference Optimization (DPO), Contrastive Preference Optimization (CPO), and supervised fine-tuning (SFT) within this embedding space. This method significantly outperforms standard latent-space implementations across various metrics, including quality and computational cost. For SDXL, our approach provides 60.8\% general preference, 62.2\% visual appeal, and 52.1\% prompt following against original open-sourced SDXL-DPO on the PartiPrompts dataset, while significantly reducing compute. Our approach not only improves the efficiency and quality of human preference alignment for diffusion models but is also easily integrable with other optimization techniques. The training code and LoRA weights will be available here: https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1
- Abstract(参考訳): 言語モデル(LM)向けに開発された人間の嗜好最適化の最近の進歩により、テキストから画像への拡散モデルが約束され、迅速なアライメント、視覚的魅力、ユーザの嗜好が向上している。
LMとは異なり、拡散モデルは通常、人間の知覚とうまく一致しないピクセルやVAE空間で最適化される。
本稿では,これらの問題に対処するために,拡散モデルのU-Net埋め込み空間における知覚的目的を用いることを提案する。
提案手法では,DPO(Direct Preference Optimization),CPO(Contrastive Preference Optimization),SFT(supervised fine-tuning)を用いて,安定拡散1.5およびXLの微調整を行う。
この手法は、品質や計算コストなど、様々な指標で標準のラテント空間の実装を著しく上回っている。
SDXLの場合、我々のアプローチは、PartiPromptsデータセット上のオリジナルのオープンソースSDXL-DPOに対して、60.8\%の一般的な好み、62.2\%の視覚的魅力、52.1\%のプロンプトを提供する。
提案手法は,拡散モデルにおける人間の嗜好アライメントの効率と品質を改善するだけでなく,他の最適化手法と容易に統合可能である。
トレーニングコードとLoRAウェイトは以下の通りである。 https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1
関連論文リスト
- Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization [46.888425016169144]
拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
従来の方法では、ビジョンランゲージモデル(VLM)を画素レベルの報酬モデルとして活用し、人間の好みを近似する。
本研究では,拡散モデルが潜伏空間におけるステップレベルの報酬モデリングに本質的に適していることを示す。
本稿では,遅延空間において,ステップレベルの優先度最適化を直接的に行う手法であるLatent Preference Optimization (LPO)を紹介する。
論文 参考訳(メタデータ) (2025-02-03T04:51:28Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
論文 参考訳(メタデータ) (2024-07-28T10:07:55Z) - Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T15:42:03Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。