論文の概要: Grouping First, Attending Smartly: Training-Free Acceleration for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2505.14687v1
- Date: Tue, 20 May 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.675984
- Title: Grouping First, Attending Smartly: Training-Free Acceleration for Diffusion Transformers
- Title(参考訳): 利口なグループ化:拡散変圧器の訓練不要加速
- Authors: Sucheng Ren, Qihang Yu, Ju He, Alan Yuille, Liang-Chieh Chen,
- Abstract要約: 拡散型トランスフォーマーは、優れた生成能力を示してきたが、計算コストが高いため、現実的な展開を妨げている。
出力品質を損なうことなく、高速な画像とビデオ生成のためのトレーニング不要な注意促進戦略であるGRATを提案する。
- 参考スコア(独自算出の注目度): 28.806234603769173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based Transformers have demonstrated impressive generative capabilities, but their high computational costs hinder practical deployment, for example, generating an $8192\times 8192$ image can take over an hour on an A100 GPU. In this work, we propose GRAT (\textbf{GR}ouping first, \textbf{AT}tending smartly), a training-free attention acceleration strategy for fast image and video generation without compromising output quality. The key insight is to exploit the inherent sparsity in learned attention maps (which tend to be locally focused) in pretrained Diffusion Transformers and leverage better GPU parallelism. Specifically, GRAT first partitions contiguous tokens into non-overlapping groups, aligning both with GPU execution patterns and the local attention structures learned in pretrained generative Transformers. It then accelerates attention by having all query tokens within the same group share a common set of attendable key and value tokens. These key and value tokens are further restricted to structured regions, such as surrounding blocks or criss-cross regions, significantly reducing computational overhead (e.g., attaining a \textbf{35.8$\times$} speedup over full attention when generating $8192\times 8192$ images) while preserving essential attention patterns and long-range context. We validate GRAT on pretrained Flux and HunyuanVideo for image and video generation, respectively. In both cases, GRAT achieves substantially faster inference without any fine-tuning, while maintaining the performance of full attention. We hope GRAT will inspire future research on accelerating Diffusion Transformers for scalable visual generation.
- Abstract(参考訳): 拡散ベースのトランスフォーマーは、素晴らしい生成能力を示しているが、その高い計算コストは、実用的なデプロイを妨げる。例えば、A100 GPUで8192\times 8192$画像を生成するには1時間以上かかる。
本研究では,出力品質を損なうことなく,高速画像とビデオ生成のためのトレーニング不要な注意促進戦略であるGRAT(\textbf{GR}ouping first, \textbf{AT}tending smartly)を提案する。
重要な洞察は、学習された注意マップ(ローカルに集中する傾向にある)における固有の疎さを、事前訓練された拡散変換器に利用し、より優れたGPU並列性を活用することである。
具体的には、GRATが最初に、連続トークンを非重複グループに分割し、GPU実行パターンと事前学習された生成変換器で学んだ局所的な注意構造の両方と整合する。
そして、同じグループ内のすべてのクエリトークンに共通のキーとバリュートークンのセットを共有することで、注意を喚起する。
これらのキーと値トークンは、周囲のブロックやクリスクロス領域などの構造化された領域に制限され、計算オーバーヘッドを著しく減らし(例: \textbf{35.8$\times$} が 8192\times 8192$ 画像を生成するときに完全に注目される)、重要な注意パターンと長距離コンテキストを保存する。
画像生成のための事前訓練した Flux と Hunyuan Video のGRAT をそれぞれ検証した。
いずれの場合も、GRATは細調整なしでかなり高速な推論を実現し、フルアテンションの性能を維持している。
GRATは、スケーラブルな視覚生成のための拡散変換器の高速化に関する将来の研究を刺激することを期待している。
関連論文リスト
- Spark Transformer: Reactivating Sparsity in FFN and Attention [63.20677098823873]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers [22.349130691342687]
ビデオ拡散変換器 (vDiT) は, テキスト・ビデオ生成において顕著な進歩を遂げているが, その高い計算要求は, 実用的展開において大きな課題を呈している。
本稿では,vDiTをベースとしたビデオ生成において,ほぼ最適設定を検索する自動フレームワークであるASTRAEAを紹介する。
論文 参考訳(メタデータ) (2025-06-05T14:41:38Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - Faster Video Diffusion with Trainable Sparse Attention [53.54796867213139]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance [43.423240627266644]
拡散変換器を用いたビデオ生成モデル(DiTs)は近年,その優れた生成品質に注目が集まっている。
しかしながら、その計算コストは、ボトルネック注意だけで、全体の80%以上の遅延の原因となっている。
本稿では,GPUに動的に注意を向けたビデオ拡散変換器の高速化のためのトレーニングフリーフレームワークであるDraftAttentionを提案する。
論文 参考訳(メタデータ) (2025-05-17T04:34:34Z) - Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [59.80405282381126]
拡散変換器(DiT)はビデオ生成を支配しているが、その高い計算コストは現実の応用性を著しく制限する。
Sparse VideoGen (SVG) と呼ばれる3次元フルアテンションに固有の空間を利用して推論効率を向上する学習自由フレームワークを提案する。
SVGはCagVideoX-v1.5とHunyuanVideoで最大2.28倍と2.33倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-03T19:29:16Z) - vid-TLDR: Training Free Token merging for Light-weight Video Transformer [14.143681665368856]
ビデオトランスフォーマーは、ビデオフレーム全体にわたる大量のトークンによって引き起こされる計算コストに悩まされる。
軽量ビデオ変換器(vid-TLDR)のための学習自由トークンマージを提案する。
背景トークンをドロップし,オブジェクトスコアをシャープにすることで,サリエンシを意識したトークンマージ戦略を導入する。
論文 参考訳(メタデータ) (2024-03-20T07:15:22Z) - PixArt-$\alpha$: Fast Training of Diffusion Transformer for
Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。
最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。
PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文 参考訳(メタデータ) (2023-09-30T16:18:00Z) - ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and Accelerator Co-Design [35.109359847475865]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて最先端のパフォーマンスを実現している。
しかし、ViTsの自己保持モジュールは依然として大きなボトルネックである。
本稿では,ViTの高速化を目的とした,ViTCoDと呼ばれる専用アルゴリズムとアクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:23Z) - Memory transformers for full context and high-resolution 3D Medical
Segmentation [76.93387214103863]
本稿では,この問題を克服するために,Full resolutIoN mEmory (FINE) 変換器を提案する。
FINEの基本的な考え方は、メモリトークンを学習して、フルレンジインタラクションを間接的にモデル化することだ。
BCV画像セグメンテーションデータセットの実験は、最先端のCNNやトランスフォーマーベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-10-11T10:11:05Z) - CogVideo: Large-scale Pretraining for Text-to-Video Generation via
Transformers [16.255516347736535]
大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。
CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。
CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
論文 参考訳(メタデータ) (2022-05-29T19:02:15Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。