論文の概要: Circuit Mechanisms for Spatial Relation Generation in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2601.06338v1
- Date: Fri, 09 Jan 2026 22:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.758723
- Title: Circuit Mechanisms for Spatial Relation Generation in Diffusion Transformers
- Title(参考訳): 拡散変圧器における空間関係生成のための回路機構
- Authors: Binxu Wang, Jingxuan Fan, Xu Pan,
- Abstract要約: Diffusion Transformer (DiTs) はテキストから画像への変換が大幅に進歩しているが、モデルはまだテキストプロンプトで指定されたオブジェクト間の正確な空間関係を生成するのに苦戦している。
テキストエンコーダの異なるサイズのDiTをスクラッチからトレーニングし、テキストプロンプトに属性と空間関係が指定された2つのオブジェクトを含む画像を生成する。
全てのモデルがこのタスクをほぼ完璧に学習できるが、基礎となるメカニズムはテキストエンコーダの選択によって大きく異なる。
- 参考スコア(独自算出の注目度): 10.129229578687083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) have greatly advanced text-to-image generation, but models still struggle to generate the correct spatial relations between objects as specified in the text prompt. In this study, we adopt a mechanistic interpretability approach to investigate how a DiT can generate correct spatial relations between objects. We train, from scratch, DiTs of different sizes with different text encoders to learn to generate images containing two objects whose attributes and spatial relations are specified in the text prompt. We find that, although all the models can learn this task to near-perfect accuracy, the underlying mechanisms differ drastically depending on the choice of text encoder. When using random text embeddings, we find that the spatial-relation information is passed to image tokens through a two-stage circuit, involving two cross-attention heads that separately read the spatial relation and single-object attributes in the text prompt. When using a pretrained text encoder (T5), we find that the DiT uses a different circuit that leverages information fusion in the text tokens, reading spatial-relation and single-object information together from a single text token. We further show that, although the in-domain performance is similar for the two settings, their robustness to out-of-domain perturbations differs, potentially suggesting the difficulty of generating correct relations in real-world scenarios.
- Abstract(参考訳): Diffusion Transformer (DiTs) はテキストと画像の生成が大幅に進歩しているが、モデルはまだテキストプロンプトで指定されたオブジェクト間の正確な空間関係を生成するのに苦労している。
本研究では,DiTが物体間の正確な空間関係をいかに生成できるかを解析するために,機械論的解釈可能性アプローチを採用する。
テキストエンコーダの異なるサイズのDiTをスクラッチからトレーニングし、テキストプロンプトに属性と空間関係が指定された2つのオブジェクトを含む画像を生成する。
すべてのモデルがこのタスクをほぼ完璧に学習できるが、基礎となるメカニズムはテキストエンコーダの選択によって大きく異なる。
ランダムなテキスト埋め込みでは、空間関係情報を2段階の回路を介して画像トークンに渡すことで、テキストプロンプト内の空間関係と単一対象属性を別々に読み取る2つの横断的頭文字を含むことが分かる。
事前訓練されたテキストエンコーダ(T5)を使用すると、DiTはテキストトークン内の情報融合を利用して、単一のテキストトークンから空間関係と単一オブジェクト情報をまとめて読み出す。
さらに、ドメイン内のパフォーマンスは2つの設定で似ているが、ドメイン外の摂動に対する堅牢性は異なり、現実のシナリオで正しい関係を生成するのが困難である可能性が示唆されている。
関連論文リスト
- Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation [9.742245178781]
我々は、強力なセマンティックバインディングのためのトレーニング不要なテキスト埋め込み対応T2IフレームワークtextbfTokeBiを提案する。
TokeBiは、NP間のCAマップを識別するCausality-Aware Projection-Out(CAPO)と、NP間の分離を強化するAdaptive Token Mixing(ATM)で構成されている。
論文 参考訳(メタデータ) (2025-03-29T08:31:30Z) - Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models [64.52046218688295]
テキスト・ツー・イメージ(T2I)拡散モデルは、画像生成プロセスのガイドとなるエンコードプロンプトに依存している。
我々は,T2Iモデルにおいてパディングトークンが果たす役割の詳細な分析を行う。
テキストエンコーディング中、拡散過程中、または効果的に無視される場合、パディングトークンがモデルの出力に影響を与える可能性がある。
論文 参考訳(メタデータ) (2025-01-12T08:36:38Z) - CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models [18.89863162308386]
CoMPaSSはT2Iモデルにおける空間的理解を強化する汎用フレームワークである。
まずSCOP(Spatial Constraints-Oriented Pairing)データエンジンでデータのあいまいさに対処する。
これらの先行技術を活用するため、CoMPaSSはToken ENcoding ORdering (TENOR)モジュールも導入している。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing [4.948910649137149]
拡散変換器(DiT)は近年,テキスト誘導画像生成において顕著な成功を収めている。
マルチモーダルな情報がこのジョイント空間を集合的に形成し、合成画像のセマンティクスをいかに導くかを示す。
ゼロショットきめ細かい画像編集のための簡易かつ効果的なEncode-Identify-Manipulate (EIM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T21:34:30Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。