論文の概要: Canvas-to-Image: Compositional Image Generation with Multimodal Controls
- arxiv url: http://arxiv.org/abs/2511.21691v1
- Date: Wed, 26 Nov 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.265599
- Title: Canvas-to-Image: Compositional Image Generation with Multimodal Controls
- Title(参考訳): Canvas-to- Image:マルチモーダル制御による合成画像生成
- Authors: Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang,
- Abstract要約: Canvas-to-Imageは、異種制御を単一のキャンバスインターフェースに統合する統合フレームワークである。
私たちのキーとなるアイデアは、多様な制御信号を単一の合成キャンバス画像にエンコードすることで、モデルが統合された視覚空間的推論を解釈できるようにすることです。
- 参考スコア(独自算出の注目度): 51.44122945214702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While modern diffusion models excel at generating high-quality and diverse images, they still struggle with high-fidelity compositional and multimodal control, particularly when users simultaneously specify text prompts, subject references, spatial arrangements, pose constraints, and layout annotations. We introduce Canvas-to-Image, a unified framework that consolidates these heterogeneous controls into a single canvas interface, enabling users to generate images that faithfully reflect their intent. Our key idea is to encode diverse control signals into a single composite canvas image that the model can directly interpret for integrated visual-spatial reasoning. We further curate a suite of multi-task datasets and propose a Multi-Task Canvas Training strategy that optimizes the diffusion model to jointly understand and integrate heterogeneous controls into text-to-image generation within a unified learning paradigm. This joint training enables Canvas-to-Image to reason across multiple control modalities rather than relying on task-specific heuristics, and it generalizes well to multi-control scenarios during inference. Extensive experiments show that Canvas-to-Image significantly outperforms state-of-the-art methods in identity preservation and control adherence across challenging benchmarks, including multi-person composition, pose-controlled composition, layout-constrained generation, and multi-control generation.
- Abstract(参考訳): 現代の拡散モデルは高品質で多様な画像を生成するのに優れていますが、特にユーザーがテキストプロンプト、主題参照、空間配置、制約のポーズ、レイアウトアノテーションを同時に指定する場合、高忠実な構成とマルチモーダル制御に苦慮しています。
Canvas-to-Imageは、これらの不均一なコントロールを単一のキャンバスインターフェースに統合し、ユーザが自分の意図を忠実に反映した画像を生成する、統一されたフレームワークである。
私たちのキーとなるアイデアは、多様な制御信号を単一の合成キャンバス画像にエンコードすることで、モデルが統合された視覚空間推論を直接解釈できるようにすることです。
さらに、マルチタスクデータセットの集合をキュレートし、拡散モデルを最適化し、統一学習パラダイム内で異種制御をテキスト・ツー・イメージ生成に統合するマルチタスクCanvasトレーニング戦略を提案する。
この共同トレーニングにより、Canvas-to-Imageはタスク固有のヒューリスティックに頼るのではなく、複数の制御モダリティを推論し、推論中のマルチコントロールシナリオによく適応する。
Canvas-to-Imageは、多人数合成、ポーズ制御合成、レイアウト制約生成、マルチコントロール生成など、困難なベンチマークにおいて、アイデンティティの保存と制御の定着において最先端の手法を著しく上回ることを示す。
関連論文リスト
- ConsistCompose: Unified Multimodal Layout Control for Image Composition [56.909072845166264]
レイアウト座標を直接言語プロンプトに埋め込む統合フレームワークであるConsistComposeを提案する。
本研究では,ConsistComposeがレイアウト制御ベースラインよりも空間精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-23T08:14:53Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions [74.30040551058319]
ComposeAnyoneはマルチモーダル条件を分離した制御可能なレイアウト・ツー・ヒューマン生成手法である。
我々のデータセットは、各人間の画像の異なるコンポーネントに対して、分離されたテキストと参照画像アノテーションを提供する。
複数のデータセットの実験では、ComposeAnyoneが所定のレイアウトに整合して人間の画像を生成することが示されている。
論文 参考訳(メタデータ) (2025-01-21T14:32:47Z) - UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction [32.08995899903304]
我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
論文 参考訳(メタデータ) (2024-10-07T11:26:13Z) - AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。