論文の概要: Grouping First, Attending Smartly: Training-Free Acceleration for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2505.14687v1
- Date: Tue, 20 May 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.675984
- Title: Grouping First, Attending Smartly: Training-Free Acceleration for Diffusion Transformers
- Title(参考訳): 利口なグループ化:拡散変圧器の訓練不要加速
- Authors: Sucheng Ren, Qihang Yu, Ju He, Alan Yuille, Liang-Chieh Chen,
- Abstract要約: 拡散型トランスフォーマーは、優れた生成能力を示してきたが、計算コストが高いため、現実的な展開を妨げている。
出力品質を損なうことなく、高速な画像とビデオ生成のためのトレーニング不要な注意促進戦略であるGRATを提案する。
- 参考スコア(独自算出の注目度): 28.806234603769173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based Transformers have demonstrated impressive generative capabilities, but their high computational costs hinder practical deployment, for example, generating an $8192\times 8192$ image can take over an hour on an A100 GPU. In this work, we propose GRAT (\textbf{GR}ouping first, \textbf{AT}tending smartly), a training-free attention acceleration strategy for fast image and video generation without compromising output quality. The key insight is to exploit the inherent sparsity in learned attention maps (which tend to be locally focused) in pretrained Diffusion Transformers and leverage better GPU parallelism. Specifically, GRAT first partitions contiguous tokens into non-overlapping groups, aligning both with GPU execution patterns and the local attention structures learned in pretrained generative Transformers. It then accelerates attention by having all query tokens within the same group share a common set of attendable key and value tokens. These key and value tokens are further restricted to structured regions, such as surrounding blocks or criss-cross regions, significantly reducing computational overhead (e.g., attaining a \textbf{35.8$\times$} speedup over full attention when generating $8192\times 8192$ images) while preserving essential attention patterns and long-range context. We validate GRAT on pretrained Flux and HunyuanVideo for image and video generation, respectively. In both cases, GRAT achieves substantially faster inference without any fine-tuning, while maintaining the performance of full attention. We hope GRAT will inspire future research on accelerating Diffusion Transformers for scalable visual generation.
- Abstract(参考訳): 拡散ベースのトランスフォーマーは、素晴らしい生成能力を示しているが、その高い計算コストは、実用的なデプロイを妨げる。例えば、A100 GPUで8192\times 8192$画像を生成するには1時間以上かかる。
本研究では,出力品質を損なうことなく,高速画像とビデオ生成のためのトレーニング不要な注意促進戦略であるGRAT(\textbf{GR}ouping first, \textbf{AT}tending smartly)を提案する。
重要な洞察は、学習された注意マップ(ローカルに集中する傾向にある)における固有の疎さを、事前訓練された拡散変換器に利用し、より優れたGPU並列性を活用することである。
具体的には、GRATが最初に、連続トークンを非重複グループに分割し、GPU実行パターンと事前学習された生成変換器で学んだ局所的な注意構造の両方と整合する。
そして、同じグループ内のすべてのクエリトークンに共通のキーとバリュートークンのセットを共有することで、注意を喚起する。
これらのキーと値トークンは、周囲のブロックやクリスクロス領域などの構造化された領域に制限され、計算オーバーヘッドを著しく減らし(例: \textbf{35.8$\times$} が 8192\times 8192$ 画像を生成するときに完全に注目される)、重要な注意パターンと長距離コンテキストを保存する。
画像生成のための事前訓練した Flux と Hunyuan Video のGRAT をそれぞれ検証した。
いずれの場合も、GRATは細調整なしでかなり高速な推論を実現し、フルアテンションの性能を維持している。
GRATは、スケーラブルな視覚生成のための拡散変換器の高速化に関する将来の研究を刺激することを期待している。
関連論文リスト
- Faster Video Diffusion with Trainable Sparse Attention [53.54796867213139]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [59.80405282381126]
拡散変換器(DiT)はビデオ生成を支配しているが、その高い計算コストは現実の応用性を著しく制限する。
Sparse VideoGen (SVG) と呼ばれる3次元フルアテンションに固有の空間を利用して推論効率を向上する学習自由フレームワークを提案する。
SVGはCagVideoX-v1.5とHunyuanVideoで最大2.28倍と2.33倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-03T19:29:16Z) - vid-TLDR: Training Free Token merging for Light-weight Video Transformer [14.143681665368856]
ビデオトランスフォーマーは、ビデオフレーム全体にわたる大量のトークンによって引き起こされる計算コストに悩まされる。
軽量ビデオ変換器(vid-TLDR)のための学習自由トークンマージを提案する。
背景トークンをドロップし,オブジェクトスコアをシャープにすることで,サリエンシを意識したトークンマージ戦略を導入する。
論文 参考訳(メタデータ) (2024-03-20T07:15:22Z) - PixArt-$\alpha$: Fast Training of Diffusion Transformer for
Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。
最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。
PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文 参考訳(メタデータ) (2023-09-30T16:18:00Z) - CogVideo: Large-scale Pretraining for Text-to-Video Generation via
Transformers [16.255516347736535]
大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。
CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。
CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
論文 参考訳(メタデータ) (2022-05-29T19:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。