論文の概要: MUSE: Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion
- arxiv url: http://arxiv.org/abs/2508.14440v1
- Date: Wed, 20 Aug 2025 05:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.351273
- Title: MUSE: Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion
- Title(参考訳): MUSE: 明示的なレイアウトセマンティック展開による多目的統一合成
- Authors: Fei Peng, Junqiang Wu, Yan Li, Tingting Gao, Di Zhang, Huiyuan Fu,
- Abstract要約: 本稿では、参照対象の忠実な再構成と、特定の領域の正確な配置の両方を必要とするレイアウト制御可能な多目的合成(LMS)の課題に対処する。
本稿では,レイアウト仕様とテキストガイダンスをシームレスに統合する統合合成フレームワークMUSEを提案する。
- 参考スコア(独自算出の注目度): 15.787883177836362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing text-to-image diffusion models have demonstrated remarkable capabilities in generating high-quality images guided by textual prompts. However, achieving multi-subject compositional synthesis with precise spatial control remains a significant challenge. In this work, we address the task of layout-controllable multi-subject synthesis (LMS), which requires both faithful reconstruction of reference subjects and their accurate placement in specified regions within a unified image. While recent advancements have separately improved layout control and subject synthesis, existing approaches struggle to simultaneously satisfy the dual requirements of spatial precision and identity preservation in this composite task. To bridge this gap, we propose MUSE, a unified synthesis framework that employs concatenated cross-attention (CCA) to seamlessly integrate layout specifications with textual guidance through explicit semantic space expansion. The proposed CCA mechanism enables bidirectional modality alignment between spatial constraints and textual descriptions without interference. Furthermore, we design a progressive two-stage training strategy that decomposes the LMS task into learnable sub-objectives for effective optimization. Extensive experiments demonstrate that MUSE achieves zero-shot end-to-end generation with superior spatial accuracy and identity consistency compared to existing solutions, advancing the frontier of controllable image synthesis. Our code and model are available at https://github.com/pf0607/MUSE.
- Abstract(参考訳): 既存のテキスト・画像拡散モデルでは、テキスト・プロンプトによって誘導される高品質な画像を生成する際、顕著な機能を示した。
しかし、正確な空間制御による多目的合成を実現することは、依然として大きな課題である。
本研究では、参照対象の忠実な再構成と、統一された画像内の特定の領域におけるそれらの正確な配置の両方を必要とするレイアウト制御可能な多目的合成(LMS)の課題に対処する。
最近の進歩はレイアウト制御と主題合成を別々に改善してきたが、既存のアプローチでは、この複合作業における空間精度とアイデンティティ保存の二重要求を同時に満たすのに苦労している。
このギャップを埋めるために,MUSEを提案する。これはCCA(concatenated cross-attention)を利用して,明示的な意味空間拡張を通じてレイアウト仕様とテキストガイダンスをシームレスに統合する統合合成フレームワークである。
提案したCCA機構は,空間制約とテキスト記述間の双方向なモーダルアライメントを実現する。
さらに,LMSタスクを学習可能なサブオブジェクトに分解して効果的に最適化する,段階的な2段階学習戦略を設計する。
大規模な実験により、MUSEは既存のソリューションに比べて空間精度とアイデンティティの整合性に優れ、ゼロショットのエンドツーエンド生成を実現し、制御可能な画像合成のフロンティアを前進させた。
私たちのコードとモデルはhttps://github.com/pf0607/MUSE.comで公開されています。
関連論文リスト
- Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation [27.770224730465237]
画像生成のための階層的クロスモーダルアライメント(HCMA)フレームワークを提案する。
HCMAは2つのアライメントモジュールを各拡散サンプリングステップに統合する。
MS-COCO 2014検証セットの実験では、HCMAが最先端のベースラインを超えたことが示されている。
論文 参考訳(メタデータ) (2025-05-10T05:02:58Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。