論文の概要: Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2605.28615v1
- Date: Wed, 27 May 2026 15:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.172134
- Title: Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization
- Title(参考訳): 合成テキスト・画像生成Via領域対応バイモーダル直接参照最適化
- Authors: Zhuohan Liu, Wujian Peng, Yitong Chen, Zuxuan Wu,
- Abstract要約: BiDPOは、T2Iモデルの合成テキスト・画像生成能力を高めるためのフレームワークである。
本手法は,複雑なテキスト・ツー・イメージタスクの好みに基づく微調整の可能性を強調している。
- 参考スコア(独自算出の注目度): 47.26274472422464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid progress of text-to-image (T2I) models, generating images that accurately reflect complex compositional prompts (covering attribute bindings, object relationships, counting) still remains challenging. To address this, we propose BiDPO, a framework to enhance T2I model's capability of compositional text-to-image generation. We begin by introducing an carefully designed pipeline to construct a large-scale preference dataset, BiComp, with strictly quality control. Then, we extend Diffusion DPO to jointly optimize image and text preferences, which is shown to greatly effective in improving the models to follow complex text prompt in generation. To further enhance the models for fine-grained alignment, we employ a region-level guidance method to focus on regions relevant to compositional concepts. Experimental results demonstrate that our BiDPO substantially improves compositional fidelity, consistently outperforming prior methods across multiple benchmarks. Our approach highlights the potential of preference-based fine-tuning for complex text-to-image tasks, offering a flexible and scalable alternative to existing techniques.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルの急速な進歩にもかかわらず、複雑な合成プロンプト(属性バインディング、オブジェクト関係、カウント)を正確に反映した画像を生成することは依然として困難である。
そこで本研究では,T2Iモデルの合成テキスト・画像生成能力を高めるためのフレームワークであるBiDPOを提案する。
まず、厳密な品質管理を備えた大規模な好みデータセットであるBiCompを構築するために、慎重に設計されたパイプラインを導入します。
そして、Diffusion DPOを拡張し、画像とテキストの好みを協調的に最適化する。
細粒度アライメントのためのモデルをさらに強化するため,我々は,構成概念に関連する領域に着目した地域レベルのガイダンス手法を採用した。
実験結果から,BDPOは構成の忠実度を著しく向上し,複数のベンチマークにおいて従来手法よりも一貫して優れていたことが示唆された。
我々のアプローチは、複雑なテキスト・画像タスクに対する好みベースの微調整の可能性を強調し、既存の技術に代わる柔軟でスケーラブルな代替手段を提供する。
関連論文リスト
- Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs [36.42060582800515]
本稿では,T2Iモデルの"フリーランチ"アライメントを可能にするフレームワークであるText Preference Optimization (TPO)を紹介する。
TPOは、ミスマッチしたプロンプトよりもマッチしたプロンプトを好むようにモデルを訓練することで機能する。
我々のフレームワークは汎用的で、既存の嗜好ベースのアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-09-30T04:32:34Z) - Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - HSTU-BLaIR: Lightweight Contrastive Text Embedding for Generative Recommender [8.466223794246261]
本稿では,軽量なコントラストテキスト埋め込みモデルで生成レコメンデータを増強するハイブリッドフレームワークHSTU-BLaIRを提案する。
HSTU-BLaIRをAmazon Reviews 2023データセットの3つのサブセットとSteamデータセットの2つのEコマースデータセットで評価した。
論文 参考訳(メタデータ) (2025-04-13T15:23:00Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。