論文の概要: SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.13515v1
- Date: Fri, 13 Feb 2026 23:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.124751
- Title: SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning
- Title(参考訳): SpargeAttention2: Hybrid Top-k+Top-p Masking and Distillation Fine-Tuningによるトレーニング可能なスパース注意
- Authors: Jintao Zhang, Kai Jiang, Chendong Xiang, Weiqi Feng, Yuezhou Hu, Haocheng Xi, Jianfei Chen, Jun Zhu,
- Abstract要約: SpargeAttention2は、生成品質を劣化させることなく高いスパース性を実現する訓練可能なスパースアテンション法である。
ビデオ拡散モデルの実験により、SpargeAttention2は95%の注意間隔と16.2倍の注意速度に到達した。
- 参考スコア(独自算出の注目度): 38.40358270636632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many training-free sparse attention methods are effective for accelerating diffusion models. Recently, several works suggest that making sparse attention trainable can further increase sparsity while preserving generation quality. We study three key questions: (1) when do the two common masking rules, i.e., Top-k and Top-p, fail, and how can we avoid these failures? (2) why can trainable sparse attention reach higher sparsity than training-free methods? (3) what are the limitations of fine-tuning sparse attention using the diffusion loss, and how can we address them? Based on this analysis, we propose SpargeAttention2, a trainable sparse attention method that achieves high sparsity without degrading generation quality. SpargeAttention2 includes (i) a hybrid masking rule that combines Top-k and Top-p for more robust masking at high sparsity, (ii) an efficient trainable sparse attention implementation, and (iii) a distillation-inspired fine-tuning objective to better preserve generation quality during fine-tuning using sparse attention. Experiments on video diffusion models show that SpargeAttention2 reaches 95% attention sparsity and a 16.2x attention speedup while maintaining generation quality, consistently outperforming prior sparse attention methods.
- Abstract(参考訳): 多くの訓練不要なスパースアテンション法は拡散モデルの加速に有効である。
近年,スパークアテンションをトレーニング可能にすることで,世代品質を保ちつつ,空間性をさらに向上させることが示唆されている。
1)2つの一般的なマスキングルール、すなわちTop-kとTop-pはいつ失敗するのか、そしてこれらの失敗を避けるにはどうすればいいのか。
2) トレーニング不要な方法よりもスパースアテンションが高頻度に到達できるのはなぜか?
(3)拡散損失を用いた微調整スパークアテンションの限界とそれへの対処法
そこで本研究では,SpargeAttention2を提案する。SpargeAttention2は,生成品質を劣化させることなく高い空間性を実現する訓練可能なスパースアテンション手法である。
SpargeAttention2 には
(i)Top-kとTop-pを組み合わせるハイブリッドマスキングルール。
(二)効率的な訓練可能なスパースアテンションの実装、及び
三 蒸留に触発された微調整の目的で、希少な注意を駆使して微調整を行おうとする。
ビデオ拡散モデルによる実験により、SpargeAttention2は95%の注意空間に到達し、生成品質を維持しながら16.2倍の注意速度向上を実現した。
関連論文リスト
- SLA2: Sparse-Linear Attention with Learnable Routing and QAT [86.22100800353991]
SLA2は97%の注意空間を達成でき、世代品質を維持しつつ18.6倍の注意速度を達成できることを示す。
実験の結果、SLA2は97%の注意範囲を達成でき、世代品質を維持しながら18.6倍の注意速度を達成できることが示された。
論文 参考訳(メタデータ) (2026-02-13T07:16:02Z) - Sparsely Supervised Diffusion [47.64816806563238]
拡散モデルはしばしば空間的に一貫性のない生成に悩まされる。
数行のコードで実装可能な,シンプルで効果的なマスキング戦略を提案する。
提案手法は,実験間で競合するFIDスコアを提供し,さらに重要なことは,小さなデータセット上でのトレーニング不安定性を回避することである。
論文 参考訳(メタデータ) (2026-02-02T19:11:56Z) - SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer [58.79642223409644]
拡散変換器は近年,映像生成において顕著な性能を示した。
SALADの提案は、疎度な注意と並行して、軽量な線形注意分岐を導入することである。
提案手法は,全注目ベースラインに匹敵する生成品質を維持しつつ,90%の間隔と1.72倍の推論高速化を実現する。
論文 参考訳(メタデータ) (2026-01-23T07:28:53Z) - EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens [47.60523011706102]
大規模言語モデルベースの生成レコメンデーション(LLMRec)は目覚ましい成功を収めているが、高い推論遅延に悩まされている。
入力シーケンス境界に配置されたレジスタトークンに情報を圧縮するために,初期層を利用した効率的な推論フレームワークEARNを提案する。
論文 参考訳(メタデータ) (2025-07-01T12:42:06Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [38.37291040904089]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - SpargeAttention: Accurate and Training-free Sparse Attention Accelerating Any Model Inference [34.27233526085954]
SpargeAttnは任意のモデルに対する普遍的スパースで量子化された注意である。
本手法は,エンドツーエンドのメトリクスを犠牲にすることなく,言語,画像,ビデオ生成などの多様なモデルを大幅に高速化する。
論文 参考訳(メタデータ) (2025-02-25T12:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。