論文の概要: Chipmunk: Training-Free Acceleration of Diffusion Transformers with Dynamic Column-Sparse Deltas
- arxiv url: http://arxiv.org/abs/2506.03275v1
- Date: Tue, 03 Jun 2025 18:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.994758
- Title: Chipmunk: Training-Free Acceleration of Diffusion Transformers with Dynamic Column-Sparse Deltas
- Title(参考訳): Chipmunk: ダイナミックカラムスパースデルタを用いた拡散変圧器のトレーニングフリー加速
- Authors: Austin Silveria, Soham V. Govande, Daniel Y. Fu,
- Abstract要約: 一般的な観測では、DiT遅延ノイズベクトルは推論ステップ間でゆっくりと変化するため、DiT計算はステップ間で冗長である可能性がある。
本稿では,この冗長性を減らして推論を高速化することを目的としている。
- 参考スコア(独自算出の注目度): 4.7236887095921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) have achieved state-of-the-art performance in high-quality image and video generation but incur substantial compute cost at inference. A common observation is that DiT latent noise vectors change slowly across inference steps, which suggests that the DiT compute may be redundant across steps. In this paper, we aim to speed up inference by reducing this redundancy, without additional training. We first study how activations change between steps in two state-of-the-art open-source DiTs. We find that just 5-25% of the values in attention and MLP explain 70-90% of the change in activations across steps. This finding motivates our approach, Chipmunk, which uses dynamic sparsity at inference time to recompute only the fastest-changing intermediate activations, while caching the rest. Dynamic sparsity introduces two systems challenges: (1) sparse attention and MLP operations tend to underutilize GPU tensor cores; and (2) computing dynamic sparsity patterns at runtime and caching activations both introduce overhead. To address these challenges, Chipmunk first uses a voxel-based reordering of input tokens to introduce column-wise sparsity. We implement column-sparse kernels utilizing efficient sparse gathers from global to shared GPU memory, achieving a 9.3x speedup at 93% sparsity compared to highly-optimized dense baselines. Second, Chipmunk overlaps the computation of sparsity patterns and cache updates with other parts of the computation (e.g., second layer of the MLP) to hide the extra latency. Chipmunk achieves up to 2.16x speedup on HunyuanVideo and 1.41x on FLUX.1-dev without compromising generation quality. Furthermore, we show that Chipmunk can be stacked on top of full step caching, achieving a 3.72x speedup on HunyuanVideo, a 2.67x speedup on WAN2.1, and a 2.25x speedup on FLUX.1-dev with minimal quality impact.
- Abstract(参考訳): DiT(Diffusion Transformer)は、高品質な画像とビデオ生成において最先端の性能を達成したが、推論にはかなりの計算コストがかかる。
一般的な観測では、DiT遅延ノイズベクトルは推論ステップ間でゆっくりと変化するため、DiT計算はステップ間で冗長である可能性がある。
本稿では,この冗長性を減らして推論を高速化することを目的としている。
まず,2つの最先端オープンソースDiTにおけるステップ間のアクティベーションの変化について検討する。
注意すべき値の5~25%に過ぎず、MDPはステップ間でのアクティベーションの変化の70~90%を説明できる。
この発見は我々のアプローチであるChipmunkを動機付けます。これは推論時に動的間隔を使い、高速に変化する中間アクティベーションのみを再計算し、残りをキャッシュします。
動的スペーサ性には,1)GPUテンソルコアの低利用傾向,2)実行時の動的スペーサ性パターンの計算,およびキャッシングアクティベーションの両面でオーバーヘッドが発生する,という2つのシステム課題がある。
これらの課題に対処するため、Chipmunkは最初に、入力トークンのボクセルベースのリオーダーを使用してカラムワイズスペーサを導入した。
高最適化された高密度ベースラインに比べて93%の間隔で9.3倍の高速化を実現し,グローバルメモリから共有GPUメモリへの効率的なスパース収集を利用したカラムスパースカーネルを実装した。
第2に、Chipmunkは余分なレイテンシを隠すために、スパーシティパターンの計算とキャッシュ更新を計算の他の部分(例えば、MLPの第2層)とオーバーラップする。
ChipmunkはHunyuanVideoで2.16倍、FLUX.1-devで1.41倍の高速化を実現している。
さらに,HunyuanVideoでは3.72倍のスピードアップ,WAN2.1では2.67倍のスピードアップ,FLUX.1-devでは2.25倍のスピードアップを実現している。
関連論文リスト
- Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers [24.105473321347894]
本稿では,ビデオ拡散変換器(vDiT)の空間加速度フレームワークであるSparse-vDiTを提案する。
Sparse-vDiT が 2.09$times$, 2.38$times$, 1.67$times$理論 FLOP 還元, 1.76$times$, 1.85$times$, 1.58$times$ をそれぞれ達成していることを示す。
我々の研究は、vDiTsの潜伏構造空間を長期ビデオ合成に体系的に活用できることを実証した。
論文 参考訳(メタデータ) (2025-06-03T16:42:37Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.07214657235465]
メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。
テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文 参考訳(メタデータ) (2025-02-11T16:58:15Z) - Chameleon: An Efficient FHE Scheme Switching Acceleration on GPUs [17.536473118470774]
ホモモルフィック暗号化(英語版) (FHE) は暗号化されたデータの直接計算を可能にする。
既存の取り組みは主に、データ型と関数の多様な要求を満たすことができない単一クラスFHEスキームに重点を置いている。
本稿では,Chameleon という高速GPUベース FHE スイッチングアクセラレーション方式を提案する。
論文 参考訳(メタデータ) (2024-10-08T11:37:49Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Recurrent Drafter for Fast Speculative Decoding in Large Language Models [18.342742904042673]
本稿では,高度な投機的復号法であるRecurrent Drafterを提案する。
大規模言語モデル(LLM)推論の最先端の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-14T23:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。