論文の概要: Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
- arxiv url: http://arxiv.org/abs/2509.25771v1
- Date: Tue, 30 Sep 2025 04:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.428035
- Title: Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs
- Title(参考訳): 優先画像ペアのないテキスト・画像拡散モデルの自由ランチアライメント
- Authors: Jia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao,
- Abstract要約: 本稿では,T2Iモデルの"フリーランチ"アライメントを可能にするフレームワークであるText Preference Optimization (TPO)を紹介する。
TPOは、ミスマッチしたプロンプトよりもマッチしたプロンプトを好むようにモデルを訓練することで機能する。
我々のフレームワークは汎用的で、既存の嗜好ベースのアルゴリズムと互換性がある。
- 参考スコア(独自算出の注目度): 36.42060582800515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based text-to-image (T2I) models have led to remarkable success in generating high-quality images from textual prompts. However, ensuring accurate alignment between the text and the generated image remains a significant challenge for state-of-the-art diffusion models. To address this, existing studies employ reinforcement learning with human feedback (RLHF) to align T2I outputs with human preferences. These methods, however, either rely directly on paired image preference data or require a learned reward function, both of which depend heavily on costly, high-quality human annotations and thus face scalability limitations. In this work, we introduce Text Preference Optimization (TPO), a framework that enables "free-lunch" alignment of T2I models, achieving alignment without the need for paired image preference data. TPO works by training the model to prefer matched prompts over mismatched prompts, which are constructed by perturbing original captions using a large language model. Our framework is general and compatible with existing preference-based algorithms. We extend both DPO and KTO to our setting, resulting in TDPO and TKTO. Quantitative and qualitative evaluations across multiple benchmarks show that our methods consistently outperform their original counterparts, delivering better human preference scores and improved text-to-image alignment. Our Open-source code is available at https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
- Abstract(参考訳): 近年の拡散型テキスト・ツー・イメージ(T2I)モデルの発展により,テキスト・プロンプトから高品質な画像を生成することに成功した。
しかし、テキストと生成された画像の正確なアライメントを確保することは、最先端の拡散モデルにとって重要な課題である。
これを解決するために、既存の研究では強化学習と人間のフィードバック(RLHF)を用いて、T2I出力を人間の好みに合わせる。
しかし、これらの手法は、ペア画像の好みデータに直接依存するか、学習された報酬関数を必要とする。
本研究では、T2Iモデルの「フリーランチ」アライメントを可能にするフレームワークであるテキスト優先最適化(TPO)を導入し、ペア画像優先データを必要としないアライメントを実現する。
TPOは、マッチしたプロンプトよりもマッチしたプロンプトを好むようにモデルを訓練することで機能する。
我々のフレームワークは汎用的で、既存の嗜好ベースのアルゴリズムと互換性がある。
我々はDPOとKTOの両方を設定に拡張し、結果としてTDPOとTKTOとなる。
複数のベンチマークで定量的、質的な評価を行った結果、我々の手法は元の手法よりも一貫して優れており、人間の好みのスコアが向上し、テキストと画像のアライメントが改善されていることがわかった。
オープンソースコードはhttps://github.com/DSL-Lab/T2I-Free-Lunch-Alignmentで公開しています。
関連論文リスト
- Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
SoftREPAは、表現アライメントにソフトテキストトークンを活用する軽量でコントラスト的な微調整戦略である。
本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文 参考訳(メタデータ) (2025-03-11T10:14:22Z) - Dual Caption Preference Optimization for Diffusion Models [53.218293277964165]
テキストから画像への拡散モデルを改善するために、Dual Caption Preference Optimization (DCPO)を導入する。
DCPOは2つの異なるキャプションをそれぞれの好みペアに割り当て、学習信号を強化する。
実験の結果,DCPOは画像品質とプロンプトとの関連性を著しく改善することがわかった。
論文 参考訳(メタデータ) (2025-02-09T20:34:43Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。
本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-02T04:13:38Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。