論文の概要: AnyMS: Bottom-up Attention Decoupling for Layout-guided and Training-free Multi-subject Customization
- arxiv url: http://arxiv.org/abs/2512.23537v1
- Date: Mon, 29 Dec 2025 15:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.55808
- Title: AnyMS: Bottom-up Attention Decoupling for Layout-guided and Training-free Multi-subject Customization
- Title(参考訳): AnyMS: レイアウトガイドとトレーニング不要なマルチオブジェクトカスタマイズのためのボトムアップアテンションデカップリング
- Authors: Binhe Yu, Zhen Wang, Kexin Li, Yuqian Yuan, Wenqiao Zhang, Long Chen, Juncheng Li, Jun Xiao, Yueting Zhuang,
- Abstract要約: 我々はレイアウト誘導型マルチオブジェクトカスタマイズのためのトレーニングフリーフレームワークであるAnyMSを紹介する。
AnyMSはテキストプロンプト、主題画像、レイアウト制約という3つの入力条件を利用する。
AnyMSは最先端のパフォーマンスを達成し、複雑な構成をサポートし、より多くの課題にスケールする。
- 参考スコア(独自算出の注目度): 55.06425570300248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-subject customization aims to synthesize multiple user-specified subjects into a coherent image. To address issues such as subjects missing or conflicts, recent works incorporate layout guidance to provide explicit spatial constraints. However, existing methods still struggle to balance three critical objectives: text alignment, subject identity preservation, and layout control, while the reliance on additional training further limits their scalability and efficiency. In this paper, we present AnyMS, a novel training-free framework for layout-guided multi-subject customization. AnyMS leverages three input conditions: text prompt, subject images, and layout constraints, and introduces a bottom-up dual-level attention decoupling mechanism to harmonize their integration during generation. Specifically, global decoupling separates cross-attention between textual and visual conditions to ensure text alignment. Local decoupling confines each subject's attention to its designated area, which prevents subject conflicts and thus guarantees identity preservation and layout control. Moreover, AnyMS employs pre-trained image adapters to extract subject-specific features aligned with the diffusion model, removing the need for subject learning or adapter tuning. Extensive experiments demonstrate that AnyMS achieves state-of-the-art performance, supporting complex compositions and scaling to a larger number of subjects.
- Abstract(参考訳): マルチオブジェクトのカスタマイズは、複数のユーザ指定対象をコヒーレントなイメージに合成することを目的としている。
被写体不足やコンフリクトなどの問題に対処するために、最近の研究は、空間的制約を明確にするためのレイアウトガイダンスを取り入れている。
しかし、既存の手法は、テキストアライメント、主観的アイデンティティ保存、レイアウト制御の3つの重要な目標のバランスを取るのに苦慮している。
本稿では,レイアウト誘導型マルチオブジェクトカスタマイズのための新しいトレーニングフリーフレームワークであるAnyMSを提案する。
AnyMSはテキストプロンプト、被写体画像、レイアウトの制約という3つの入力条件を活用し、生成時の統合を調和させるボトムアップのデュアルレベルアテンションデカップリング機構を導入している。
具体的には、グローバルデカップリングはテキストアライメントを保証するために、テキストと視覚条件の相互アテンションを分離する。
局所デカップリングは各被験者の注意を指定領域に限定し、被験者の衝突を防止し、アイデンティティの保存とレイアウト制御を保証する。
さらに、AnyMSは、事前訓練されたイメージアダプタを使用して、拡散モデルに沿った主題固有の特徴を抽出し、主題学習やアダプタチューニングの必要性を取り除く。
大規模な実験では、AnyMSが最先端のパフォーマンスを達成し、複雑な構成をサポートし、より多くの被験者に拡張できることが示されている。
関連論文リスト
- 3SGen: Unified Subject, Style, and Structure-Driven Image Generation with Adaptive Task-specific Memory [54.056509629389915]
3SGenはタスク対応の統一フレームワークで、単一のモデル内で3つの条件付けモードすべてを実行する。
その中核となるのは、Adaptive Task-specific Memory (ATM)モジュールで、動的に切り離され、格納され、条件固有の事前情報を検索する。
本稿では3SGen-Benchを提案する。3SGen-Benchは3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench。
論文 参考訳(メタデータ) (2025-12-22T11:07:27Z) - ConsistCompose: Unified Multimodal Layout Control for Image Composition [56.909072845166264]
レイアウト座標を直接言語プロンプトに埋め込む統合フレームワークであるConsistComposeを提案する。
本研究では,ConsistComposeがレイアウト制御ベースラインよりも空間精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-23T08:14:53Z) - MUSE: Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion [15.787883177836362]
本稿では、参照対象の忠実な再構成と、特定の領域の正確な配置の両方を必要とするレイアウト制御可能な多目的合成(LMS)の課題に対処する。
本稿では,レイアウト仕様とテキストガイダンスをシームレスに統合する統合合成フレームワークMUSEを提案する。
論文 参考訳(メタデータ) (2025-08-20T05:52:26Z) - Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。