論文の概要: VecAttention: Vector-wise Sparse Attention for Accelerating Long Context Inference
- arxiv url: http://arxiv.org/abs/2603.29494v1
- Date: Tue, 31 Mar 2026 09:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.456388
- Title: VecAttention: Vector-wise Sparse Attention for Accelerating Long Context Inference
- Title(参考訳): VecAttention:ロングコンテキスト推論の高速化のためのベクトルワイドスパースアテンション
- Authors: Anmin Liu, Ruixuan Yang, Huiqiang Jiang, Bin Lin, Minmin Sun, Yong Li, Chen Zhang, Tao Xie,
- Abstract要約: 長文ビデオの理解と生成は、Transformerベースのビデオモデルにとって重要な計算課題である。
我々は,ベクトル的に疎い注意を喚起する新しいフレームワークである textbfVecAttention を提案する。
VecAttentionは、フルアテンションよりも2.65$times$スピードアップ、最先端のスパースアテンションメソッドよりも1.83$times$スピードアップを提供する。
- 参考スコア(独自算出の注目度): 18.18780613751611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context video understanding and generation pose a significant computational challenge for Transformer-based video models due to the quadratic complexity of self-attention. While existing sparse attention methods employ coarse-grained patterns to improve efficiency, they typically incur redundant computation and suboptimal performance. To address this issue, in this paper, we propose \textbf{VecAttention}, a novel framework of vector-wise sparse attention that achieves superior accuracy-efficiency trade-offs for video models. We observe that video attention maps exhibit a strong vertical-vector sparse pattern, and further demonstrate that this vertical-vector pattern offers consistently better accuracy-sparsity trade-offs compared with existing coarse-grained sparse patterns. Based on this observation, VecAttention dynamically selects and processes only informative vertical vectors through a lightweight important-vector selection that minimizes memory access overhead and an optimized kernel of vector sparse attention. Comprehensive evaluations on video understanding (VideoMME, LongVideoBench, and VCRBench) and generation (VBench) tasks show that VecAttention delivers a 2.65$\times$ speedup over full attention and a 1.83$\times$ speedup over state-of-the-art sparse attention methods, with comparable accuracy to full attention. Our code is available at https://github.com/anminliu/VecAttention.
- Abstract(参考訳): 長文ビデオの理解と生成は、自己注意の2次複雑さのため、トランスフォーマーベースのビデオモデルにとって重要な計算課題となる。
既存のスパースアテンション手法では粗いパターンを用いて効率を向上するが、通常は冗長な計算や準最適性能を発生させる。
この問題に対処するため,本論文では,ビデオモデルにおける精度・効率のトレードオフを向上するベクトル的疎注意の新たなフレームワークである「textbf{VecAttention}」を提案する。
ビデオアテンションマップは, 強い垂直ベクトルスパースパターンを示し, さらに, この垂直ベクトルパターンは, 既存の粗粒スパースパターンと比較して, 一貫して精度とスパース性のトレードオフを提供することを示した。
この観測に基づいて、VecAttentionは、メモリアクセスオーバーヘッドを最小限に抑える軽量な重要ベクトル選択と、ベクトルスパース注意の最適化されたカーネルを通じて、情報的垂直ベクトルのみを動的に選択し、処理する。
ビデオ理解(VideoMME、LongVideoBench、VCRBench)および生成(VBench)タスクに関する包括的な評価は、VecAttentionがフルアテンションよりも2.65$\times$スピードアップ、最先端のスパースアテンションメソッドよりも1.83$\times$スピードアップを提供することを示している。
私たちのコードはhttps://github.com/anminliu/VecAttention.comから入手可能です。
関連論文リスト
- TrajTok: Learning Trajectory Tokens enables better Video Understanding [63.1260672430712]
ビデオモデルのトークン化は、通常、パッチ化によって、過剰で冗長な数のトークンを生成する。
そこで我々は,ビデオモデルと完全に統合され,共にトレーニングされたビデオトークンモジュールであるTrajTokを提案する。
本稿では,前処理した視覚特徴量(TrajAdapter)の探索ヘッドとしてシームレスに統合できるか,特に長ビデオ推論において高い性能を持つ視覚言語モデル(TrajVLM)のアライメントコネクタとして利用できることを示す。
論文 参考訳(メタデータ) (2026-02-26T09:15:34Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [54.84294780326206]
VORTAは2つの新しいコンポーネントを持つアクセラレーションフレームワークである。
VBenchの品質を損なうことなく、エンドツーエンドのスピードアップを$1.76タイムで実現している。
モデルキャッシングやステップ蒸留など、他の様々なアクセラレーション手法とシームレスに統合でき、14.41タイムのスピードアップに到達し、性能劣化を無視できる。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance [43.423240627266644]
拡散変換器を用いたビデオ生成モデル(DiTs)は近年,その優れた生成品質に注目が集まっている。
しかしながら、その計算コストは、ボトルネック注意だけで、全体の80%以上の遅延の原因となっている。
本稿では,GPUに動的に注意を向けたビデオ拡散変換器の高速化のためのトレーニングフリーフレームワークであるDraftAttentionを提案する。
論文 参考訳(メタデータ) (2025-05-17T04:34:34Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [59.80405282381126]
拡散変換器(DiT)はビデオ生成を支配しているが、その高い計算コストは現実の応用性を著しく制限する。
Sparse VideoGen (SVG) と呼ばれる3次元フルアテンションに固有の空間を利用して推論効率を向上する学習自由フレームワークを提案する。
SVGはCagVideoX-v1.5とHunyuanVideoで最大2.28倍と2.33倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-03T19:29:16Z) - RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。
RetrievalAttentionは1-3%のデータのみを必要としながら、ほぼ全注意精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-09-16T17:59:52Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。