論文の概要: Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation
- arxiv url: http://arxiv.org/abs/2508.12969v1
- Date: Mon, 18 Aug 2025 14:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.381222
- Title: Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation
- Title(参考訳): コンパクトな注意:高速ビデオ生成のための構造付き時空間空間の爆発
- Authors: Qirui Li, Guangcong Zheng, Qi Zhao, Jie Li, Bin Dong, Yiwu Yao, Xi Li,
- Abstract要約: Compact Attentionは,3つのイノベーションを特徴とする,ハードウェア対応のアクセラレーションフレームワークだ。
単体GPUのセットアップに注意を向け,1.62.5倍の高速化を実現した。
この研究は、構造化された空間的利用を通じて効率的な長ビデオ生成を解放するための原則化されたアプローチを提供する。
- 参考スコア(独自算出の注目度): 21.87891961960399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The computational demands of self-attention mechanisms pose a critical challenge for transformer-based video generation, particularly in synthesizing ultra-long sequences. Current approaches, such as factorized attention and fixed sparse patterns, fail to fully exploit the inherent spatio-temporal redundancies in video data. Through systematic analysis of video diffusion transformers (DiT), we uncover a key insight: Attention matrices exhibit structured, yet heterogeneous sparsity patterns, where specialized heads dynamically attend to distinct spatiotemporal regions (e.g., local pattern, cross-shaped pattern, or global pattern). Existing sparse attention methods either impose rigid constraints or introduce significant overhead, limiting their effectiveness. To address this, we propose Compact Attention, a hardware-aware acceleration framework featuring three innovations: 1) Adaptive tiling strategies that approximate diverse spatial interaction patterns via dynamic tile grouping, 2) Temporally varying windows that adjust sparsity levels based on frame proximity, and 3) An automated configuration search algorithm that optimizes sparse patterns while preserving critical attention pathways. Our method achieves 1.6~2.5x acceleration in attention computation on single-GPU setups while maintaining comparable visual quality with full-attention baselines. This work provides a principled approach to unlocking efficient long-form video generation through structured sparsity exploitation. Project Page: https://yo-ava.github.io/Compact-Attention.github.io/
- Abstract(参考訳): 自己アテンション機構の計算要求は、特に超長周期の合成において、トランスフォーマーベースのビデオ生成において重要な課題となる。
分解された注意や固定されたスパースパターンといった現在のアプローチは、ビデオデータに固有の時空間的冗長性を完全に活用することができない。
注意行列は、異なる時空間領域(例えば、局所パターン、断面パターン、大域パターン)に動的に特別な頭部が関与する構造的かつ不均一な空間パターンを示す。
既存のスパースアテンションメソッドは、厳格な制約を課すか、大きなオーバーヘッドを導入し、その効果を制限します。
これを解決するために,ハードウェア対応のアクセラレーションフレームワークであるCompact Attentionを提案する。
1)動的タイルグルーピングによる多様な空間相互作用パターンを近似する適応的タイリング戦略
2)フレーム近接度に基づいて空間レベルの調整を行う時間変化窓
3)重要注意経路を維持しながらスパースパターンを最適化する自動構成探索アルゴリズム。
本手法は,単一GPUのアテンション計算において,フルアテンションベースラインと同等の視覚的品質を維持しながら1.6~2.5倍の高速化を実現する。
この研究は、構造化された空間的利用を通じて効率的な長ビデオ生成を解放するための原則化されたアプローチを提供する。
Project Page: https://yo-ava.github.io/Compact-Attention.github.io/
関連論文リスト
- PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models [14.14413223631804]
視覚生成において、注意機構の二次的な複雑さは、高いメモリと計算コストをもたらす。
課題を軽減するための注意パターンを*再編成する。
視覚特徴抽出の局所的な集約性に着想を得て,新しい**Pattern-Aware token Re Ordering (PARO)*テクニックを設計する。
論文 参考訳(メタデータ) (2025-06-19T06:25:02Z) - AutoHFormer: Efficient Hierarchical Autoregressive Transformer for Time Series Prediction [36.239648954658534]
時系列予測には、3つの競合する目標を同時に達成するアーキテクチャが必要である。
本稿では,これらの課題に対処する階層型自己回帰変換器であるAutoHFormerを紹介する。
総合的な実験により、AutoHFormer 10.76XはP08のPatchTSTと比較して高速なトレーニングと6.06倍のメモリ削減を示した。
論文 参考訳(メタデータ) (2025-06-19T03:47:04Z) - FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation [14.903360987684483]
高品質なダイナミック・メディカル・ビデオのためのフル次元能動的アテンション・トランスフォーマであるFEATを提案する。
FEAT-Sは、最先端モデルのEndoraのパラメータのわずか23%しか持たないが、同等またはそれ以上の性能を発揮することを示した。
論文 参考訳(メタデータ) (2025-06-05T12:31:02Z) - FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers [63.788600404496115]
FullDiT2は、ビデオ生成と編集の両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークである。
FullDiT2は、拡散ステップ当たりの平均時間コストにおいて、計算の大幅な削減と2~3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:57:09Z) - Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers [24.105473321347894]
本稿では,ビデオ拡散変換器(vDiT)の空間加速度フレームワークであるSparse-vDiTを提案する。
Sparse-vDiT が 2.09$times$, 2.38$times$, 1.67$times$理論 FLOP 還元, 1.76$times$, 1.85$times$, 1.58$times$ をそれぞれ達成していることを示す。
我々の研究は、vDiTsの潜伏構造空間を長期ビデオ合成に体系的に活用できることを実証した。
論文 参考訳(メタデータ) (2025-06-03T16:42:37Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Training-free and Adaptive Sparse Attention for Efficient Long Video Generation [31.615453637053793]
Diffusion Transformers (DiTs) による高忠実度長ビデオの生成は、しばしば大きな遅延によって妨げられる。
本稿では,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。
AdaSpaは適応的なプラグアンドプレイソリューションとして実装されており、既存のDiTとシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-28T14:11:20Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。