論文の概要: Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2504.10148v1
- Date: Mon, 14 Apr 2025 11:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:30.417411
- Title: Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers
- Title(参考訳): 拡散変圧器の多インスタンス合成における注意特長の階層的・段階的調整
- Authors: Chunyang Zhang, Zhenhong Sun, Zhicheng Zhang, Junyan Wang, Yu Zhang, Dong Gong, Huadong Mo, Daoyi Dong,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成モデルは、しばしばMIS(Multi-instance synthesis)と競合する。
UNetアーキテクチャの従来のMIS制御方法は、DiTベースのモデルに適合しない。
DiTモデルにおけるMIS向上のためのトレーニング不要アプローチを提案する。
- 参考スコア(独自算出の注目度): 22.269573676129152
- License:
- Abstract: Text-to-image (T2I) generation models often struggle with multi-instance synthesis (MIS), where they must accurately depict multiple distinct instances in a single image based on complex prompts detailing individual features. Traditional MIS control methods for UNet architectures like SD v1.5/SDXL fail to adapt to DiT-based models like FLUX and SD v3.5, which rely on integrated attention between image and text tokens rather than text-image cross-attention. To enhance MIS in DiT, we first analyze the mixed attention mechanism in DiT. Our token-wise and layer-wise analysis of attention maps reveals a hierarchical response structure: instance tokens dominate early layers, background tokens in middle layers, and attribute tokens in later layers. Building on this observation, we propose a training-free approach for enhancing MIS in DiT-based models with hierarchical and step-layer-wise attention specialty tuning (AST). AST amplifies key regions while suppressing irrelevant areas in distinct attention maps across layers and steps, guided by the hierarchical structure. This optimizes multimodal interactions by hierarchically decoupling the complex prompts with instance-based sketches. We evaluate our approach using upgraded sketch-based layouts for the T2I-CompBench and customized complex scenes. Both quantitative and qualitative results confirm our method enhances complex layout generation, ensuring precise instance placement and attribute representation in MIS.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルは、しばしばマルチインスタンス合成(MIS)と競合し、個々の特徴を詳述する複雑なプロンプトに基づいて、単一の画像内の複数の異なるインスタンスを正確に描写する必要がある。
SD v1.5/SDXLのようなUNetアーキテクチャの従来のMIS制御方法は、テキストイメージのクロスアテンションではなく、画像とテキストトークン間の統合的な注意に依存するFLUXやSD v3.5のようなDiTベースのモデルに適応できない。
DiTのMISを高めるために、まずDiTの混合注意機構を解析する。
我々のトークン・ワイド・レイヤ・ワイド・アテンション・マップは、初期層を支配しているインスタンストークン、中層におけるバックグラウンドトークン、後層の属性トークンといった階層的な応答構造を明らかにします。
本研究は,階層型およびステップ階層型注意特化チューニング(AST)を用いたDITモデルにおけるMIS向上のためのトレーニング不要アプローチを提案する。
ASTはキー領域を増幅し、階層構造によって導かれるレイヤやステップをまたいだ異なる注意マップにおける無関係領域を抑圧する。
これは、複雑なプロンプトをインスタンスベースのスケッチで階層的に分離することで、マルチモーダルインタラクションを最適化する。
我々は、T2I-CompBenchとカスタマイズされた複雑なシーンに対して、スケッチベースのレイアウトを改良してアプローチを評価する。
定量的および定性的な結果の両方が,MISにおける高精度なインスタンス配置と属性表現を確保することで,複雑なレイアウト生成を促進する。
関連論文リスト
- LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations [18.728541981438216]
既存のテキスト・トゥ・イメージ(T2I)モデルは、複数のオブジェクトと複雑な関係を含む合成画像生成において、劣化した性能を示す。
シーングラフの高品質な構造アノテーションを備えた大規模データセットであるLAION-SGを構築した。
合成画像生成のモデルを評価するベンチマークであるCompSG-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-12-11T17:57:10Z) - Adaptive Large Language Models By Layerwise Attention Shortcuts [46.76681147411957]
LLMライクなセットアップにより、最終レイヤはアテンションメカニズムを通じて適合すると考えられるすべての中間レイヤに出席することができる。
音響トークン,自然言語,シンボリック音楽の4つの異なるデータセットを紹介し,GPTアーキテクチャの優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-17T03:46:01Z) - HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution [6.546896650921257]
参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T01:16:29Z) - Noise Contrastive Estimation-based Matching Framework for Low-Resource
Security Attack Pattern Recognition [49.536368818512116]
TTP(Tactics, Techniques and Procedures)は、サイバーセキュリティドメインにおける高度な攻撃パターンを表す。
そこで本研究では,TTPラベルへのテキストの割り当てが,両者の直接的な意味的類似性によって決定される,異なる学習パラダイムの問題を定式化する。
本稿では,効果的なサンプリングベース学習機構を備えたニューラルマッチングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-18T19:02:00Z) - Skeleton-Guided Instance Separation for Fine-Grained Segmentation in
Microscopy [23.848474219551818]
顕微鏡(MS)画像解析における基本的な課題の1つは、インスタンスセグメンテーション(IS)である。
我々は,この課題に対処し,MS画像におけるISの精度を高めるために,A2B-ISという新しいワンステージフレームワークを提案する。
提案手法は2つの大規模MSデータセットに対して徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-18T11:14:32Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - DARTS: Double Attention Reference-based Transformer for Super-resolution [12.424350934766704]
参照ベース画像超解像のための変換器モデルであるDARTSを提案する。
DARSは2つの画像分布の合同表現を学習し、低解像度の入力画像の内容を強化する。
変換器を用いたモデルが最先端のモデルと競合することを示す。
論文 参考訳(メタデータ) (2023-07-17T20:57:16Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。