論文の概要: Interpreting the Synchronization Gap: The Hidden Mechanism Inside Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.20987v1
- Date: Sun, 22 Mar 2026 00:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.183068
- Title: Interpreting the Synchronization Gap: The Hidden Mechanism Inside Diffusion Transformers
- Title(参考訳): 同期ギャップの解釈:拡散変圧器内隠れ機構
- Authors: Emil Albrychiewicz, Andrés Franco Valiente, Li-Ching Chen, Viola Zixin Zhao,
- Abstract要約: 予混合拡散変換器(DiT)における同期ギャップの機械的実現について検討する。
本研究は,ネットワークの終端層への分化遷移を分離し,DiTsが生成的曖昧性をどのように解決するかを機械論的に解釈するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent theoretical models of diffusion processes, conceptualized as coupled Ornstein-Uhlenbeck systems, predict a hierarchy of interaction timescales, and consequently, the existence of a synchronization gap between modes that commit at different stages of the reverse process. However, because these predictions rely on continuous time and analytically tractable score functions, it remains unclear how this phenomenology manifests in the deep, discrete architectures deployed in practice. In this work, we investigate how the synchronization gap is mechanistically realized within pretrained Diffusion Transformers (DiTs). We construct an explicit architectural realization of replica coupling by embedding two generative trajectories into a joint token sequence, modulated by a symmetric cross attention gate with variable coupling strength g. Through a linearized analysis of the attention difference, we show that the replica interaction decomposes mechanistically. We empirically validate our theoretical framework on a pretrained DiT-XL/2 model by tracking commitment and per layer internal mode energies. Our results reveal that: (1) the synchronization gap is an intrinsic architectural property of DiTs that persists even when external coupling is turned off; (2) as predicted by our spatial routing bounds, the gap completely collapses under strong coupling; (3) the gap is strictly depth localized, emerging sharply only within the final layers of the Transformer; and (4) global, low frequency structures consistently commit before local, high frequency details. Ultimately, our findings provide a mechanistic interpretation of how Diffusion Transformers resolve generative ambiguity, isolating speciation transitions to the terminal layers of the network.
- Abstract(参考訳): 近年の拡散過程の理論モデルでは、Ornstein-Uhlenbeck系として概念化され、相互作用の時間スケールの階層が予測され、結果として、逆過程の異なる段階でコミットするモード間の同期ギャップが存在する。
しかし、これらの予測は連続時間と解析的に抽出可能なスコア関数に依存しているため、この現象学が実際に展開される深層かつ離散的なアーキテクチャにどのように現れるかは定かではない。
本研究では,事前学習した拡散変換器(DiT)において,同期ギャップがどのように機械的に実現されるかを検討する。
共役トークン列に2つの生成軌道を埋め込むことで、共役結合強度gの対称なクロスアテンションゲートで変調することで、レプリカ結合の明示的なアーキテクチャを実現する。
注意差の線形解析により、複製相互作用が機械的に分解されることを示す。
我々は,各層内モードエネルギーの追従により,事前学習したDiT-XL/2モデルの理論的枠組みを実証的に検証した。
その結果,(1) 同期ギャップは外部結合がオフになっても持続するDiTの固有のアーキテクチャ特性であり,(2) 空間的ルーティング境界によって予測されるようなギャップは強い結合の下で完全に崩壊する。
最終的に、Diffusion Transformerが生成的あいまいさを解消し、ネットワークの終端層への分化遷移を分離する方法を機械論的に解釈する。
関連論文リスト
- Continuum field theory of matchgate tensor network ensembles [36.94429692322632]
2次元フェルミオン整合テンソルネットワークのランダムアンサンブルに対する連続体記述を開発する。
結果の普遍物理学の診断として、フェミオン二点関数の障害平均モーメントを解析する。
我々は、障害がトポロジカル項を持つ対称性クラスDの非線形シグマモデルによって支配される普遍的長距離挙動を駆動することを示す。
論文 参考訳(メタデータ) (2026-03-06T12:15:35Z) - Parallel Complex Diffusion for Scalable Time Series Generation [50.01609741902786]
PaCoDiは周波数領域における生成モデリングを分離するスペクトルネイティブアーキテクチャである。
本研究では,PaCoDiが生成品質と推論速度の両方において,既存のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:53Z) - Cross-Domain Transfer with Self-Supervised Spectral-Spatial Modeling for Hyperspectral Image Classification [5.784164305429653]
本稿では,自己管理型クロスドメイン転送フレームワークを提案する。
ソースラベルなしで伝送可能なスペクトル-空間結合表現を学習する。
実験結果は、安定した分類性能と強いクロスドメイン適応性を示す。
論文 参考訳(メタデータ) (2026-01-26T02:52:35Z) - Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium [0.6820746164515952]
閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。
この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。
バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
論文 参考訳(メタデータ) (2025-11-26T20:02:59Z) - Parallel BiLSTM-Transformer networks for forecasting chaotic dynamics [24.960864709838436]
本研究では,Transformer と Bidirectional Long Short-Term Memory Network を統合した並列予測フレームワークを提案する。
提案したハイブリッドモデルはデュアルブランチアーキテクチャを採用しており、Transformerブランチは主に長距離依存関係をキャプチャする。
結果は、提案されたハイブリッドフレームワークがタスク間でシングルブランチアーキテクチャの両方より優れていることを一貫して示している。
論文 参考訳(メタデータ) (2025-10-27T16:17:10Z) - Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought [64.43689151961054]
有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。
分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
論文 参考訳(メタデータ) (2025-09-27T15:23:46Z) - Kuramoto Orientation Diffusion Models [67.0711709825854]
指紋やテクスチャなどのオリエンテーションに富んだ画像は、しばしばコヒーレントな角模様を示す。
生体系における位相同期の役割を動機として,スコアベース生成モデルを提案する。
一般的な画像ベンチマークで競合する結果を実装し,指紋やテクスチャなどの指向性データセットの生成品質を大幅に向上する。
論文 参考訳(メタデータ) (2025-09-18T18:18:49Z) - Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - Localisation in quasiperiodic chains: a theory based on convergence of
local propagators [68.8204255655161]
局所プロパゲータの収束に基づく準周期鎖に最も近いホッピングを持つ局所化の理論を提示する。
これらの連続分数の収束、局所化、あるいはその欠如を分析することは可能であり、それによって臨界点とモビリティエッジが帰結する。
結果は、振る舞いの範囲をカバーする3つの準周期モデルの理論を分析することで実証される。
論文 参考訳(メタデータ) (2021-02-18T16:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。