Fugu-MT 論文翻訳(概要): Rethinking Cross-Layer Information Routing in Diffusion Transformers

論文の概要: Rethinking Cross-Layer Information Routing in Diffusion Transformers

arxiv url: http://arxiv.org/abs/2605.20708v1
Date: Wed, 20 May 2026 05:07:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.482802
Title: Rethinking Cross-Layer Information Routing in Diffusion Transformers
Title（参考訳）: 拡散変圧器におけるクロス層情報ルーティングの再考
Authors: Chao Xu, Maohua Li, Qirui Li, Yixuan Xu, Yanke Zhou, Yunhe Li, Cuifeng Shen, Hanlin Tang, Kan Liu, Tao Lan, Lin Qu, Shao-Qun Zhang,
Abstract要約: Diffusion Transformer (DiT) は、現代の視覚生成の事実上のバックボーンとなっている。本稿では,DiTsにおける層間情報フローの系統的解析について述べる。そこで本稿では,Diffusion-Adaptive Routing(textscDAR)を提案する。
参考スコア（独自算出の注目度）: 17.704741758253675
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Transformers (DiTs) have become a de facto backbone of modern visual generation, and nearly every major axis of their design -- tokenization, attention, conditioning, objectives, and latent autoencoders -- has been extensively revisited. The residual stream that governs how information accumulates across layers, however, has been directly inherited from the original Transformer. In this paper, we present a systematic empirical analysis of cross-layer information flow in DiTs, jointly along depth and denoising timestep, and identify three concrete symptoms of traditional residual addition, namely monotonic forward magnitude inflation, sharp backward gradient decay, and pronounced block-wise redundancy. Motivated by this diagnosis, we propose Diffusion-Adaptive Routing (\textsc{DAR}), a drop-in residual replacement that performs \emph{learnable, timestep-adaptive, and non-incremental} aggregation over the history of sublayer outputs. Moreover, the proposed \textsc{DAR} is compatible with many modern Transformer enhancement methods, such as REPA. On ImageNet $256\times256$, \textsc{DAR} improves SiT-XL/2 by $2.11$ FID ($7.56$ vs.\ $9.67$) and matches the baseline's converged quality with $8.75\times$ fewer training iterations. Stacked on top of REPA, it yields a $2\times$ training acceleration in the early stage, suggesting cross-layer information routing as an underexplored design axis in diffusion modeling, one that operates orthogonally to existing representation-alignment objectives. Beyond pretraining, \textsc{DAR} can also be applied during the fine-tuning stage of large-scale T2I models and preserves high-frequency details during Distribution Matching Distillation.
Abstract（参考訳）: Diffusion Transformers (DiTs) は、現代の視覚生成の事実上のバックボーンとなり、その設計のほぼすべての主要な軸であるトークン化、注意、条件付け、目的、潜時オートエンコーダが、広範囲に再検討されている。しかし、層にまたがる情報の蓄積方法を管理する残留ストリームは、元のTransformerから直接継承されている。本稿では,DiTsにおける多層間情報流の系統的解析を行い,従来の残留付加現象,すなわち単調な前方等級インフレーション,急進な後方勾配減衰,ブロックワイド冗長性の3つの具体的な症状を同定する。この診断に触発されたDiffusion-Adaptive Routing (\textsc{DAR}) は,サブレイヤ出力の履歴に対して,emph{learnable, timestep-adaptive, and non-incremental}アグリゲーションを実行する。さらに、提案したtextsc{DAR} は、REPA などの多くの現代的な Transformer 拡張手法と互換性がある。 ImageNet $256\times256$, \textsc{DAR} では SiT-XL/2 が 2.11$ FID (7.56$ vs. 9.67ドル)で、ベースラインの収束した品質を8.75\times$より少ないトレーニングイテレーションで一致させる。 REPAの上に重ねると、初期の段階では2ドル以上のトレーニングアクセラレーションが得られ、拡散モデリングにおける未探索設計軸としてクロスレイヤ情報ルーティングが提案される。事前トレーニング以外にも、大規模なT2Iモデルの微調整段階でもtextsc{DAR} が適用でき、分散マッチング蒸留時に高周波の詳細を保存することができる。

関連論文リスト

The Recurrent Transformer: Greater Effective Depth and Efficient Decoding [48.9323408950142]
Recurrent Transformerは、各レイヤがそれぞれのアクティベーションから計算されたキーと値のペアに付随する、シンプルなアーキテクチャ変更である。このアーキテクチャは, (i) 従来のトランスフォーマーと (ii) トークン・ツー・グレッシブ・リカレント更新の両方を軽度な仮定でエミュレートできることを示す。
論文参考訳（メタデータ） (2026-04-23T02:12:58Z)
Dynamic Chunking Diffusion Transformer [16.954365273223473]
Diffusion Transformerは静的$textitpatchify$演算によって生成されるトークンの固定長シーケンスとしてイメージを処理する。本研究では, 動的チャンキング拡散変換器 (DC-DiT) を導入し, 学習したエンコーダ・ルータ・デコーダの足場でDiTのバックボーンを増強する。 DC-DiTは、均一な背景領域をより少ないトークンに圧縮し、より詳細な領域をより多くのトークンに圧縮することを学ぶ。
論文参考訳（メタデータ） (2026-03-06T14:59:11Z)
Look-Ahead and Look-Back Flows: Training-Free Image Generation with Trajectory Smoothing [3.77130368225397]
流速場調整による画像生成を改善するため, 各種トレーニングフリーなフローマッチング手法が開発されている。本研究では, 曲率ゲートウェイトを用いて, 電流および次ステップの潜伏を平均化するemphLook-Aheadと, 指数移動平均を用いて潜伏を滑らかにするemphLook-Backの2つの学習自由軌道平滑化手法を提案する。
論文参考訳（メタデータ） (2026-02-10T06:34:47Z)
VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training [53.09658039757408]
本稿では,効率的な拡散訓練のための軽量な固有ガイダンスフレームワークである textbfnamex を提案する。 nameは、拡散トランスフォーマーの中間潜時特徴を、軽量なプロジェクション層を介してVAE特徴と整列し、特徴アライメントロスによって教師される。実験により、バニラ拡散変圧器と比較して、名称が生成品質とトレーニング収束速度の両方を改善することが示された。
論文参考訳（メタデータ） (2026-01-25T13:22:38Z)
MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。 1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文参考訳（メタデータ） (2025-11-17T06:17:08Z)
Denoising Multi-Beta VAE: Representation Learning for Disentanglement and Generation [15.957980475573365]
本稿では,様々な$beta$値を利用して,複数の対応する潜在表現を学習する新しい生成モデリングフレームワークを提案する。異なる$beta$値に対応する潜在表現を円滑に遷移する非線形拡散モデルを導入する。乱れと生成品質の両面から,我々の枠組みを評価した。
論文参考訳（メタデータ） (2025-07-09T07:29:41Z)
PiT: Progressive Diffusion Transformer [50.46345527963736]
拡散変換器(DiT)は変換器アーキテクチャを用いて画像生成において顕著な性能を発揮する。 DiTは以前信じられていたようなグローバルな情報に大きく依存していない。 Pseudo Progressive Diffusion Transformer (PiT)を提案する。
論文参考訳（メタデータ） (2025-05-19T15:02:33Z)
Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文参考訳（メタデータ） (2025-05-08T17:58:45Z)
TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [41.909091496502704]
拡散トランスフォーマー(Diffusion Transformers, DiTs)は、強力なが未探索な生成モデルのクラスである。解釈可能な拡散変換を行うためのTIDE-Temporal-aware sparse Autoencodersを提案する。
論文参考訳（メタデータ） (2025-03-10T08:35:51Z)
Mutual Information-driven Triple Interaction Network for Efficient Image Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文参考訳（メタデータ） (2023-08-14T08:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。