論文の概要: ConsistCompose: Unified Multimodal Layout Control for Image Composition
- arxiv url: http://arxiv.org/abs/2511.18333v1
- Date: Sun, 23 Nov 2025 08:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.78293
- Title: ConsistCompose: Unified Multimodal Layout Control for Image Composition
- Title(参考訳): ConsistCompose:画像合成のための統一マルチモーダルレイアウト制御
- Authors: Xuanke Shi, Boxuan Li, Xiaoyang Han, Zhongang Cai, Lei Yang, Dahua Lin, Quan Wang,
- Abstract要約: レイアウト座標を直接言語プロンプトに埋め込む統合フレームワークであるConsistComposeを提案する。
本研究では,ConsistComposeがレイアウト制御ベースラインよりも空間精度を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 56.909072845166264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models that couple visual understanding with image generation have advanced rapidly, yet most systems still focus on visual grounding-aligning language with image regions-while their generative counterpart, linguistic-embedded layout-grounded generation (LELG) for layout-controllable multi-instance generation, remains underexplored and limits precise compositional control. We present ConsistCompose, a unified multimodal framework that embeds layout coordinates directly into language prompts, enabling layout-controlled multi-instance image generation from Interleaved Image-Text within a single generative interface. We further construct ConsistCompose3M, a 3.4M multi-instance generation dataset with layout and identity annotations (2.6M text-guided and 0.8M image-guided data pairs) that provides large-scale supervision for layout-conditioned generation. Within this framework, LELG is instantiated through instance-coordinate binding prompts and coordinate-aware classifier-free guidance, which translate linguistic layout cues into precise spatial control without task-specific branches. Experiments on COCO-Position and MS-Bench show that ConsistCompose substantially improves spatial accuracy over layout-controlled baselines while preserving identity fidelity and competitive general multimodal understanding, establishing a unified paradigm for layout-controllable multimodal image generation.
- Abstract(参考訳): 画像生成と視覚的理解を併せ持つ統一マルチモーダルモデルは急速に進歩しているが、ほとんどのシステムは画像領域を持つ視覚的接地言語に焦点を当てている。
ConsistComposeは、レイアウト座標を直接言語プロンプトに埋め込む統一されたマルチモーダルフレームワークで、Interleaved Image-Textからレイアウト制御されたマルチインスタンス画像を生成することができる。
さらに、レイアウトとIDアノテーションを備えた3.4Mマルチインスタンス生成データセットであるConsistCompose3M(2.6Mテキスト誘導および0.8M画像誘導データペア)を構築し、レイアウト条件付き生成の大規模監視を行う。
このフレームワーク内では、LELGはインスタンス・コーディネート・バインディング・プロンプトとコーディネート・アウェア・クラシファイア・フリー・ガイダンスによってインスタンス化され、言語レイアウトのキューをタスク固有の分岐なしで正確な空間制御に変換する。
COCO-Position と MS-Bench の実験により、ConsistCompose は、レイアウト制御可能なマルチモーダル画像生成のための統一パラダイムを確立しつつ、アイデンティティの忠実さと競合する汎用マルチモーダル理解を維持しながら、レイアウト制御ベースラインよりも空間精度を大幅に向上することを示した。
関連論文リスト
- ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation [24.487453636504707]
マルチインスタンス生成のための新しいDiffusion TransformerフレームワークであるContextGenを紹介する。
ContextGenは、制御精度、アイデンティティの忠実度、全体的な視覚的品質において、既存の手法よりも優れた新しい最先端の手法を設定できることを示します。
論文 参考訳(メタデータ) (2025-10-13T04:21:19Z) - Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。
提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。
本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文 参考訳(メタデータ) (2025-02-27T15:08:39Z) - UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation [78.21134311493303]
拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。
レイアウト・ツー・イメージ生成は、より正確で制御可能な生成を可能にするために、地域固有の位置と記述を活用するために提案されている。
本稿では、レイアウトモデル、データセット、プランナを統合した、創造的なレイアウト・ツー・イメージ生成のための体系的なソリューションを提案する。
論文 参考訳(メタデータ) (2024-12-05T04:09:47Z) - OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction [32.08995899903304]
我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
論文 参考訳(メタデータ) (2024-10-07T11:26:13Z) - Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。
本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。
Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。