論文の概要: Rectified SpaAttn: Revisiting Attention Sparsity for Efficient Video Generation
- arxiv url: http://arxiv.org/abs/2511.19835v1
- Date: Tue, 25 Nov 2025 02:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.22959
- Title: Rectified SpaAttn: Revisiting Attention Sparsity for Efficient Video Generation
- Title(参考訳): Rectified SpaAttn: 効率的なビデオ生成のための注意空間の再検討
- Authors: Xuewen Liu, Zhikai Li, Jing Zhang, Mengjuan Chen, Qingyi Gu,
- Abstract要約: 拡散変換器はビデオ生成を支配するが、注意の二次的な複雑さは相当なレイテンシをもたらす。
注意間隔は、非クリティカルトークンを無視しながらクリティカルトークンに注目することで計算コストを削減します。
既存の手法は、注意配分における系統的バイアスを誘導する。
本稿では,暗黙のフルアテンション参照でアテンションアロケーションを補正するRectified SpaAttnを提案する。
- 参考スコア(独自算出の注目度): 22.35209793690791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers dominate video generation, but the quadratic complexity of attention computation introduces substantial latency. Attention sparsity reduces computational costs by focusing on critical tokens while ignoring non-critical tokens. However, existing methods suffer from severe performance degradation. In this paper, we revisit attention sparsity and reveal that existing methods induce systematic biases in attention allocation: (1) excessive focus on critical tokens amplifies their attention weights; (2) complete neglect of non-critical tokens causes the loss of relevant attention weights. To address these issues, we propose Rectified SpaAttn, which rectifies attention allocation with implicit full attention reference, thereby enhancing the alignment between sparse and full attention maps. Specifically: (1) for critical tokens, we show that their bias is proportional to the sparse attention weights, with the ratio governed by the amplified weights. Accordingly, we propose Isolated-Pooling Attention Reallocation, which calculates accurate rectification factors by reallocating multimodal pooled weights. (2) for non-critical tokens, recovering attention weights from the pooled query-key yields attention gains but also introduces pooling errors. Therefore, we propose Gain-Aware Pooling Rectification, which ensures that the rectified gain consistently surpasses the induced error. Moreover, we customize and integrate the Rectified SpaAttn kernel using Triton, achieving up to 3.33 and 2.08 times speedups on HunyuanVideo and Wan 2.1, respectively, while maintaining high generation quality. We release Rectified SpaAttn as open-source at https://github.com/BienLuky/Rectified-SpaAttn .
- Abstract(参考訳): 拡散変換器はビデオ生成を支配するが、注意計算の二次的な複雑さは相当なレイテンシをもたらす。
注意間隔は、非クリティカルトークンを無視しながらクリティカルトークンに注目することで計算コストを削減します。
しかし、既存の手法は深刻な性能劣化に悩まされている。
本稿では,注意分散を再考し,既存の手法が注意配分の体系的バイアスを誘発することを明らかにする。(1)クリティカルトークンへの過度な注視が注意重みを増幅すること,(2)非クリティカルトークンの完全無視が注意重みの喪失を引き起こす。
これらの問題に対処するために、暗黙のフルアテンション参照でアテンションアロケーションを修正し、スパースマップとフルアテンションマップのアライメントを向上するRectified SpaAttnを提案する。
具体的には,(1)臨界トークンの場合,そのバイアスはスパース注意重みに比例し,その比率は増幅重みに比例する。
そこで本研究では,マルチモーダルプール重みを再配置することにより,精度の高い修正係数を算出し,分離プール注意再配置を提案する。
2) 非クリティカルトークンの場合、プールされたクエリキーから注意重みを回収すると注意が上がりますが、プールエラーも発生します。
そこで我々は,修正されたゲインが誘導されたエラーを一貫して超えることを確実にするゲイン・アウェア・ポーリング・リクティフィケーションを提案する。
さらに,Tritonを用いたRectified SpaAttnカーネルのカスタマイズと統合を行い,HunyuanVideoとWan 2.1で最大3.33倍,2.08倍の高速化を実現した。
Rectified SpaAttnはhttps://github.com/BienLuky/Rectified-SpaAttnでオープンソースとして公開しています。
関連論文リスト
- Alleviating Forgetfulness of Linear Attention by Hybrid Sparse Attention and Contextualized Learnable Token Eviction [12.740812798007573]
有限メモリは、検索集約的なタスクに害を与える忘れやすさを誘導する。
過去のトークンへの直接アクセスを復元する一連のハイブリッドモデルについて検討する。
本稿では,新しい学習可能なトークン消去手法を提案する。
論文 参考訳(メタデータ) (2025-10-23T17:53:03Z) - QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification [67.15451442018258]
拡散変換器は素晴らしいビデオ生成能力を示すが、その計算とメモリの禁止コストは実際の展開を妨げる。
モデル量子化とアテンションスパシフィケーションは圧縮に有望な2つの方向であるが、それぞれがアグレッシブ圧縮の下で深刻な性能劣化を被っている。
モデル量子化と注意散布を統合した統合フレームワークである textbfQuantSparse を提案する。
論文 参考訳(メタデータ) (2025-09-28T06:49:44Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Scaling Stick-Breaking Attention: An Efficient Implementation and In-depth Study [38.492552119793]
大規模環境下での突破プロセスに基づく別の注意機構について検討する。
従来のソフトマックス方式のアテンション機構をスティック破りのアテンションに置き換えることの意味について検討した。
現在のSoftmax+RoPEアテンションシステムのドロップイン代替として使用すると、スティック破りのアテンションが現在の手法と競合することがわかった。
論文 参考訳(メタデータ) (2024-10-23T15:51:13Z) - When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文 参考訳(メタデータ) (2024-10-14T17:50:28Z) - Robustifying Token Attention for Vision Transformers [72.07710236246285]
ビジョントランスフォーマー(ViT)は、一般的な汚職の存在下でも精度が著しく低下している。
本稿では,2つの一般的な手法を用いて,より注意を安定させる2つの手法を提案する。
まず,Token-Aware Average Pooling (TAP)モジュールは,各トークンの局所的近傍に注意機構に参加することを奨励する。
第二に、出力トークンは、ほんの少しだけに集中するのではなく、多様な入力トークンの集合から情報を集約するように強制する。
論文 参考訳(メタデータ) (2023-03-20T14:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。