論文の概要: $Δ$-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2406.01125v1
- Date: Mon, 3 Jun 2024 09:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:48:31.638022
- Title: $Δ$-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers
- Title(参考訳): $Δ$-DiT:拡散変換器のための訓練不要加速法
- Authors: Pengtao Chen, Mingzhu Shen, Peng Ye, Jianjian Cao, Chongjun Tu, Christos-Savvas Bouganis, Yiren Zhao, Tao Chen,
- Abstract要約: トレーニング不要な推論アクセラレーションフレームワークであるDelta$-DiTを提案する。
$Delta$-DiTは、設計されたキャッシュ機構を使用して、初期サンプリングステージの後方DiTブロックと後期ステージの前方DiTブロックを高速化する。
PIXART-$alpha$とDiT-XLの実験は、$Delta$-DiTが20ステップ世代で1.6倍のスピードアップを達成できることを示した。
- 参考スコア(独自算出の注目度): 13.433352602762511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models are widely recognized for generating high-quality and diverse images, but their poor real-time performance has led to numerous acceleration works, primarily focusing on UNet-based structures. With the more successful results achieved by diffusion transformers (DiT), there is still a lack of exploration regarding the impact of DiT structure on generation, as well as the absence of an acceleration framework tailored to the DiT architecture. To tackle these challenges, we conduct an investigation into the correlation between DiT blocks and image generation. Our findings reveal that the front blocks of DiT are associated with the outline of the generated images, while the rear blocks are linked to the details. Based on this insight, we propose an overall training-free inference acceleration framework $\Delta$-DiT: using a designed cache mechanism to accelerate the rear DiT blocks in the early sampling stages and the front DiT blocks in the later stages. Specifically, a DiT-specific cache mechanism called $\Delta$-Cache is proposed, which considers the inputs of the previous sampling image and reduces the bias in the inference. Extensive experiments on PIXART-$\alpha$ and DiT-XL demonstrate that the $\Delta$-DiT can achieve a $1.6\times$ speedup on the 20-step generation and even improves performance in most cases. In the scenario of 4-step consistent model generation and the more challenging $1.12\times$ acceleration, our method significantly outperforms existing methods. Our code will be publicly available.
- Abstract(参考訳): 拡散モデルは高品質で多様な画像を生成するために広く認識されているが、そのリアルタイム性能の低さは、主にUNetベースの構造に焦点をあてた多くの加速作業につながっている。
拡散変圧器(DiT)によりより成功した結果により、DiT構造が生成に与える影響や、DiTアーキテクチャに合わせた加速度フレームワークが存在しないことに関して、まだ探索の余地がない。
これらの課題に対処するため、我々は、DiTブロックと画像生成の相関について検討する。
以上の結果から,DiTの前面ブロックは生成画像の輪郭に関連し,後方ブロックは細部に関連があることが判明した。
そこで本研究では,初期サンプリング段階における後部DiTブロックと後期サンプリング段階における前部DiTブロックを高速化するためのキャッシュ機構を設計した,トレーニングフリー推論アクセラレーションフレームワークである$\Delta$-DiTを提案する。
具体的には、前のサンプリング画像の入力を考慮し、推論のバイアスを低減する、$\Delta$-Cacheと呼ばれるDiT固有のキャッシュ機構を提案する。
PIXART-$\alpha$とDiT-XLの大規模な実験は、$\Delta$-DiTが20ステップ世代で1.6\times$のスピードアップを達成でき、ほとんどの場合パフォーマンスも向上することを示した。
4段階の一貫性のあるモデル生成とより困難な1.12\times$Accelerationのシナリオでは,提案手法は既存手法よりも大幅に優れている。
私たちのコードは公開されます。
関連論文リスト
- Accelerating Vision Diffusion Transformers with Skip Branches [46.19946204953147]
Diffusion Transformers (DiT) は、新しい画像およびビデオ生成モデルアーキテクチャである。
DiTの実践的な展開は、シーケンシャルな denoising プロセスにおける計算複雑性と冗長性によって制約される。
我々は,Skip-DiTを導入し,Skip-DiTをスキップブランチでSkip-DiTに変換し,特徴のスムーズさを高める。
また、Skip-Cacheを導入します。これは、スキップブランチを使用して、推論時にタイムステップ毎にDiT機能をキャッシュします。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、Diffusion Transformers (DiT) の設計に従って、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。
DiTよりも優れたパフォーマンスに加えて、DiG-S/2はDiT-S/2よりも2.5times$高いトレーニング速度を示し、メモリ解像度は75.7%$179times 1792$である。
同じモデルサイズで、DIG-XL/2は最近のMambaベースの拡散モデルより4.2倍、解像度は1024ドルで、FlashAttention-2でDiTより1.8倍速い。
論文 参考訳(メタデータ) (2024-05-28T17:59:33Z) - T-Stitch: Accelerating Sampling in Pre-Trained Diffusion Models with
Trajectory Stitching [143.72720563387082]
Trajectory Stitching T-Stitchは, ほとんどあるいは全く発生しないことなくサンプリング効率を向上させるための, 単純かつ効率的な手法である。
我々の重要な洞察は、異なる拡散モデルが同じトレーニングデータ分布の下で同様のエンコーディングを学ぶことである。
また,本手法は,SDモデルの高速化を目的としたドロップイン手法としても利用できる。
論文 参考訳(メタデータ) (2024-02-21T23:08:54Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Exploiting Activation based Gradient Output Sparsity to Accelerate
Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。
しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文 参考訳(メタデータ) (2021-09-16T04:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。