論文の概要: Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.05769v1
- Date: Fri, 06 Mar 2026 00:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.699564
- Title: Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers
- Title(参考訳): テキスト・画像拡散変換器における局所・排他制御のためのレイヤワイズ・インスタンス結合
- Authors: Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu,
- Abstract要約: テキスト・画像生成における領域命令によるレイアウト制御は非常に実用的だが、既存の手法は制限に悩まされている。
地域生成を異なるレイヤとしてモデル化し、生成中にそれらを結合することにより、LayerBindを提案する。
- 参考スコア(独自算出の注目度): 49.08465459791972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Region-instructed layout control in text-to-image generation is highly practical, yet existing methods suffer from limitations: (i) training-based approaches inherit data bias and often degrade image quality, and (ii) current techniques struggle with occlusion order, limiting real-world usability. To address these issues, we propose LayerBind. By modeling regional generation as distinct layers and binding them during the generation, our method enables precise regional and occlusion controllability. Our motivation stems from the observation that spatial layout and occlusion are established at a very early denoising stage, suggesting that rearranging the early latent structure is sufficient to modify the final output. Building on this, we structure the scheme into two phases: instance initialization and subsequent semantic nursing. (1) First, leveraging the contextual sharing mechanism in multimodal joint attention, Layer-wise Instance Initialization creates per-instance branches that attend to their own regions while anchoring to the shared background. At a designated early step, these branches are fused according to the layer order to form a unified latent with a pre-established layout. (2) Then, Layer-wise Semantic Nursing reinforces regional details and maintains the occlusion order via a layer-wise attention enhancement. Specifically, a sequential layered attention path operates alongside the standard global path, with updates composited under a layer-transparency scheduler. LayerBind is training-free and plug-and-play, serving as a regional and occlusion controller across Diffusion Transformers. Beyond generation, it natively supports editable workflows, allowing for flexible modifications like changing instances or rearranging visible orders. Both qualitative and quantitative results demonstrate LayerBind's effectiveness, highlighting its strong potential for creative applications.
- Abstract(参考訳): テキスト・画像生成における領域命令によるレイアウト制御は非常に実用的だが、既存の手法は制限に悩まされている。
i) トレーニングベースのアプローチは、データのバイアスを継承し、画像品質を劣化させることが多い。
(二)現在の技術は、現実世界のユーザビリティを制限する排他的秩序に苦しむ。
これらの問題に対処するために、LayerBindを提案する。
地域生成を異なる層としてモデル化し、生成中にそれらを結合することにより、正確な地域的・排他的制御を可能にする。
我々のモチベーションは、空間的配置と閉塞が非常に初期の認知段階に確立されることから来ており、初期潜伏構造の再構成が最終的な出力を変更するのに十分であることを示している。
これに基づいて、本手法をインスタンス初期化とその後のセマンティック看護という2つのフェーズに構成する。
1)マルチモーダル共同注意におけるコンテキスト共有機構を活用することにより,レイヤワイズインスタンス初期化は,共有背景に固定しつつ,それぞれの領域に従属するインスタンス単位のブランチを生成する。
指定された初期段階では、これらの分岐は層順に従って融合され、予め確立されたレイアウトで統一された潜水線を形成する。
2) レイヤーワイド・セマンティック・ナーシングは, 地域細部を補強し, 層ワイド・アテンション・エンハンスメントを通じて隠蔽順序を維持する。
具体的には、シーケンシャルな階層化されたアテンションパスが標準のグローバルパスに沿って動作し、更新は層透過スケジューラの下で合成される。
LayerBindはトレーニングフリーでプラグアンドプレイで、Diffusion Transformerをまたいだ地域的および排他的コントローラとして機能する。
生成以外にも、編集可能なワークフローをネイティブにサポートし、インスタンスの変更や可視的な順序の変更など、柔軟な修正を可能にする。
質的な結果と定量的な結果の両方がLayerBindの有効性を示し、クリエイティブなアプリケーションに対する強力な可能性を強調している。
関連論文リスト
- MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues [106.02577891104079]
本稿では,生成画像編集のための合成パラダイムであるMagicQuill V2を提案する。
本手法は,創造性を制御可能な視覚的手がかりのスタックに分解する。
論文 参考訳(メタデータ) (2025-12-02T18:59:58Z) - Rethinking Layer-wise Model Merging through Chain of Merges [21.26982153528304]
Chain of Merges(CoM)は、層間で重みを順次マージし、アクティベーション統計を逐次更新するレイヤワイドマージ手順である。
標準ベンチマークの実験では、CoMが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-08-29T08:44:47Z) - Control and Realism: Best of Both Worlds in Layout-to-Image without Training [59.16447569868382]
レイアウト・ツー・イメージ生成のためのトレーニング不要なWinWinLayを提案する。
制御精度とリアリズムを協調的に向上する,非局所的注意エネルギーと適応更新という2つの重要な戦略を提案する。
WinWinLayは、要素配置の制御とフォトリアリスティックな視覚的忠実さの達成に優れ、現在の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-06-18T15:39:02Z) - PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation [24.964136963713102]
単一制御構造下で複数の視覚条件を効果的に制御できる新しい統一制御フレームワークであるPixelPonderを提案する。
具体的には、サブリージョンレベルで空間的に関連する制御信号を動的に優先順位付けするパッチレベル適応条件選択機構を設計する。
大規模な実験では、PixelPonderがさまざまなベンチマークデータセットにまたがる従来のメソッドを上回ることが示されている。
論文 参考訳(メタデータ) (2025-03-09T16:27:02Z) - ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。
正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-02-25T16:57:04Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Cross-Enhancement Transformer for Action Segmentation [5.752561578852787]
本論文では,クロスエンハンスメントトランスと呼ばれる新しいエンコーダデコーダ構造を提案する。
本手法は,対話型自己認識機構を用いた時間構造表現の効果的な学習である。
さらに,過分割誤差を罰するトレーニングプロセスを強化するために,新たな損失関数を提案する。
論文 参考訳(メタデータ) (2022-05-19T10:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。