論文の概要: Elastic Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2602.13993v1
- Date: Sun, 15 Feb 2026 05:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.592921
- Title: Elastic Diffusion Transformer
- Title(参考訳): 弾性拡散変圧器
- Authors: Jiangshan Wang, Zeqiang Lai, Jiarui Chen, Jiayi Guo, Hang Guo, Xiu Li, Xiangyu Yue, Chunchao Guo,
- Abstract要約: Diffusion Transformer (DiT) は優れた生成能力を示したが、計算コストは高い。
適応加速度フレームワークである textbfElastic Diffusion Transformer (E-DiT) を提案する。
- 参考スコア(独自算出の注目度): 32.62353162897611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiT) have demonstrated remarkable generative capabilities but remain highly computationally expensive. Previous acceleration methods, such as pruning and distillation, typically rely on a fixed computational capacity, leading to insufficient acceleration and degraded generation quality. To address this limitation, we propose \textbf{Elastic Diffusion Transformer (E-DiT)}, an adaptive acceleration framework for DiT that effectively improves efficiency while maintaining generation quality. Specifically, we observe that the generative process of DiT exhibits substantial sparsity (i.e., some computations can be skipped with minimal impact on quality), and this sparsity varies significantly across samples. Motivated by this observation, E-DiT equips each DiT block with a lightweight router that dynamically identifies sample-dependent sparsity from the input latent. Each router adaptively determines whether the corresponding block can be skipped. If the block is not skipped, the router then predicts the optimal MLP width reduction ratio within the block. During inference, we further introduce a block-level feature caching mechanism that leverages router predictions to eliminate redundant computations in a training-free manner. Extensive experiments across 2D image (Qwen-Image and FLUX) and 3D asset (Hunyuan3D-3.0) demonstrate the effectiveness of E-DiT, achieving up to $\sim$2$\times$ speedup with negligible loss in generation quality. Code will be available at https://github.com/wangjiangshan0725/Elastic-DiT.
- Abstract(参考訳): Diffusion Transformer (DiT) は優れた生成能力を示したが、計算コストは高い。
プルーニングや蒸留のような以前の加速法は、通常、固定された計算能力に依存しており、加速が不十分で生成品質が劣化する。
この制限に対処するために、生成品質を維持しながら効率を効果的に向上するDiTの適応加速度フレームワークである \textbf{ Elastic Diffusion Transformer (E-DiT)} を提案する。
具体的には、DiTの生成過程は、かなりの疎度(すなわち、いくつかの計算は品質に最小限の影響でスキップできる)を示し、この疎度はサンプル間で大きく異なる。
この観測により、E-DiTは各DiTブロックに軽量ルータを装備し、入力潜時からサンプル依存の間隔を動的に識別する。
各ルータは、対応するブロックをスキップできるかどうかを適応的に決定する。
ブロックがスキップされない場合、ルータはブロック内の最適MLP幅低減比を予測する。
推論の際には、ルータ予測を利用して冗長な計算をトレーニング不要に除去するブロックレベルの特徴キャッシング機構も導入する。
2D画像(Qwen-ImageとFLUX)と3Dアセット(Hunyuan3D-3.0)にわたる大規模な実験は、E-DiTの有効性を実証し、生成品質が無視できないスピードアップを最大$\sim$2$\times$に達成した。
コードはhttps://github.com/wangjiangshan0725/Elastic-DiT.comから入手できる。
関連論文リスト
- Dense2MoE: Restructuring Diffusion Transformer to MoE for Efficient Text-to-Image Generation [41.16959587963631]
本研究では,高密度拡散変換器(DiT)をMixture of Experts(MoE)に変換する。
具体的には、DiT BlocksのFeed-Forward Networks(FFN)をMoE層に置き換え、FFNの活性化パラメータ数を62.5%削減する。
全体として、Dense2MoEは効率的なテキスト・画像生成のための新しいパラダイムを確立している。
論文 参考訳(メタデータ) (2025-10-10T07:42:27Z) - RAPID^3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformer [86.57077884971478]
ディフュージョントランスフォーマー(DiT)は、視覚発生時に優れるが、遅いサンプリングによって妨げられる。
本稿では,RAPID3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformersを紹介する。
ベースジェネレータの更新をゼロにするイメージワイドアクセラレーションを提供する。
競合する生成品質でサンプリングを3倍近く高速化する。
論文 参考訳(メタデータ) (2025-09-26T13:20:52Z) - Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers [24.105473321347894]
本稿では,ビデオ拡散変換器(vDiT)の空間加速度フレームワークであるSparse-vDiTを提案する。
Sparse-vDiT が 2.09$times$, 2.38$times$, 1.67$times$理論 FLOP 還元, 1.76$times$, 1.85$times$, 1.58$times$ をそれぞれ達成していることを示す。
我々の研究は、vDiTsの潜伏構造空間を長期ビデオ合成に体系的に活用できることを実証した。
論文 参考訳(メタデータ) (2025-06-03T16:42:37Z) - DyDiT++: Dynamic Diffusion Transformers for Efficient Visual Generation [66.86241453156225]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
textbfDynamic textbfDiffusion textbfTransformer (DyDiT)を提案する。
DyDiTは、その計算を時間ステップと空間次元の両方に沿って調整する。
論文 参考訳(メタデータ) (2025-04-09T11:48:37Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。