論文の概要: SUDO: Enhancing Text-to-Image Diffusion Models with Self-Supervised Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2504.14534v1
- Date: Sun, 20 Apr 2025 08:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 23:58:53.780317
- Title: SUDO: Enhancing Text-to-Image Diffusion Models with Self-Supervised Direct Preference Optimization
- Title(参考訳): SuDO: 自己監督型直接選好最適化によるテキスト・画像拡散モデルの強化
- Authors: Liang Peng, Boxi Wu, Haoran Cheng, Yibo Zhao, Xiaofei He,
- Abstract要約: 従来のテキスト・画像拡散モデルでは、教師付き微調整を用いて事前訓練されたベースモデルを強化するのが一般的である。
我々は,画素レベルの細かな詳細とグローバルな画質の両方を最適化する新しいパラダイムであるSelf-SUpervised Direct preference Optimization (SUDO)を紹介する。
教師付き微調整の効果的な代替として、SUDOはどんなテキスト・画像拡散モデルにもシームレスに適用できる。
- 参考スコア(独自算出の注目度): 19.087540230261684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous text-to-image diffusion models typically employ supervised fine-tuning (SFT) to enhance pre-trained base models. However, this approach primarily minimizes the loss of mean squared error (MSE) at the pixel level, neglecting the need for global optimization at the image level, which is crucial for achieving high perceptual quality and structural coherence. In this paper, we introduce Self-sUpervised Direct preference Optimization (SUDO), a novel paradigm that optimizes both fine-grained details at the pixel level and global image quality. By integrating direct preference optimization into the model, SUDO generates preference image pairs in a self-supervised manner, enabling the model to prioritize global-level learning while complementing the pixel-level MSE loss. As an effective alternative to supervised fine-tuning, SUDO can be seamlessly applied to any text-to-image diffusion model. Importantly, it eliminates the need for costly data collection and annotation efforts typically associated with traditional direct preference optimization methods. Through extensive experiments on widely-used models, including Stable Diffusion 1.5 and XL, we demonstrate that SUDO significantly enhances both global and local image quality. The codes are provided at \href{https://github.com/SPengLiang/SUDO}{this link}.
- Abstract(参考訳): 従来のテキストと画像の拡散モデルは、通常、教師付き微調整(SFT)を使用して、事前訓練されたベースモデルを強化する。
しかし、この手法は、画像レベルでのグローバルな最適化の必要性を無視し、ピクセルレベルでの平均二乗誤差(MSE)の損失を抑え、高い知覚品質と構造コヒーレンスを達成するのに不可欠である。
本稿では,画素レベルの細かな詳細とグローバルな画像品質の両方を最適化する,新たなパラダイムであるSelf-SUpervised Direct preference Optimization (SUDO)を紹介する。
直接選好最適化をモデルに統合することにより、SUDOは自己教師付きで選好画像ペアを生成し、画素レベルのMSE損失を補完しながら、グローバルレベルの学習を優先することができる。
教師付き微調整の効果的な代替として、SUDOはどんなテキスト・画像拡散モデルにもシームレスに適用できる。
重要なのは、従来の直接選好最適化メソッドに関連するコストの高いデータ収集とアノテーションの取り組みを不要にすることです。
安定拡散1.5およびXLを含む広範に利用されているモデルに対する広範な実験を通して、SUDOはグローバルおよびローカルな画像品質を著しく向上することを示した。
コードは \href{https://github.com/SPengLiang/SUDO}{this link} で提供されている。
関連論文リスト
- STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。
提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文 参考訳(メタデータ) (2025-03-15T17:36:24Z) - Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization [46.888425016169144]
拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
従来の方法では、ビジョンランゲージモデル(VLM)を画素レベルの報酬モデルとして活用し、人間の好みを近似する。
本研究では,拡散モデルが潜伏空間におけるステップレベルの報酬モデリングに本質的に適していることを示す。
本稿では,遅延空間において,ステップレベルの優先度最適化を直接的に行う手法であるLatent Preference Optimization (LPO)を紹介する。
論文 参考訳(メタデータ) (2025-02-03T04:51:28Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Zero-Reference Lighting Estimation Diffusion Model for Low-Light Image Enhancement [2.9873893715462185]
ゼロLEDと呼ばれる低照度画像強調のための新しいゼロ参照光推定拡散モデルを提案する。
拡散モデルの安定収束能力を利用して、低照度領域と実常照度領域の間のギャップを埋める。
ゼロ参照学習を通じてペアのトレーニングデータへの依存を緩和する。
論文 参考訳(メタデータ) (2024-03-05T11:39:17Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - GL-GAN: Adaptive Global and Local Bilevel Optimization model of Image
Generation [6.931933354572298]
適応的グローバル・ローカル・バイレベル最適化モデル(GL-GAN)を導入する。
このモデルは相補的で促進的な方法で高解像度画像を生成する。
現在のGAN手法と比較して、我々のモデルはCelebA, CelebA-HQ, LSUNデータセットで顕著な性能を示している。
論文 参考訳(メタデータ) (2020-08-06T03:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。