論文の概要: SLA2: Sparse-Linear Attention with Learnable Routing and QAT
- arxiv url: http://arxiv.org/abs/2602.12675v1
- Date: Fri, 13 Feb 2026 07:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.875925
- Title: SLA2: Sparse-Linear Attention with Learnable Routing and QAT
- Title(参考訳): SLA2:学習可能なルーティングとQATによるスパースラーニング
- Authors: Jintao Zhang, Haoxu Wang, Kai Jiang, Kaiwen Zheng, Youhe Jiang, Ion Stoica, Jianfei Chen, Jun Zhu, Joseph E. Gonzalez,
- Abstract要約: SLA2は97%の注意空間を達成でき、世代品質を維持しつつ18.6倍の注意速度を達成できることを示す。
実験の結果、SLA2は97%の注意範囲を達成でき、世代品質を維持しながら18.6倍の注意速度を達成できることが示された。
- 参考スコア(独自算出の注目度): 86.22100800353991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse-Linear Attention (SLA) combines sparse and linear attention to accelerate diffusion models and has shown strong performance in video generation. However, (i) SLA relies on a heuristic split that assigns computations to the sparse or linear branch based on attention-weight magnitude, which can be suboptimal. Additionally, (ii) after formally analyzing the attention error in SLA, we identify a mismatch between SLA and a direct decomposition into sparse and linear attention. We propose SLA2, which introduces (I) a learnable router that dynamically selects whether each attention computation should use sparse or linear attention, (II) a more faithful and direct sparse-linear attention formulation that uses a learnable ratio to combine the sparse and linear attention branches, and (III) a sparse + low-bit attention design, where low-bit attention is introduced via quantization-aware fine-tuning to reduce quantization error. Experiments show that on video diffusion models, SLA2 can achieve 97% attention sparsity and deliver an 18.6x attention speedup while preserving generation quality.
- Abstract(参考訳): Sparse-Linear Attention (SLA) はスパースとリニアアテンションを組み合わせて拡散モデルを加速し,映像生成において高い性能を示した。
しかし、
(i)SLAは、注意重大度に基づいてスパースや線形分岐に計算を割り当てるヒューリスティックスプリットに依存しており、これは準最適である。
また、
2) SLAにおける注意誤差を解析した結果, SLAと直接分解のミスマッチが, 疎度, 直線的注意に分類された。
I) それぞれの注意計算がスパースまたはリニアアテンションを使用するべきかを動的に選択する学習可能なルータ、(II) スパースとリニアアテンションブランチを組み合わせるための学習可能な比率を用いたより忠実で直接的なスパース線形アテンション定式化、(III) 量子化認識による低ビットアテンションを導入して量子化誤差を低減するためのスパース・ロービットアテンション設計を提案する。
ビデオ拡散モデルでは、SLA2は97%の注意空間を達成でき、生成品質を維持しながら18.6倍の注意速度を提供する。
関連論文リスト
- Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - GraphTARIF: Linear Graph Transformer with Augmented Rank and Improved Focus [32.63390871016499]
本稿では,注目度と注目度を両立させる新しい枠組みを提案する。
具体的には、値行列にゲート付き局所グラフネットワークブランチをアタッチすることで、線形注意力を高める。
また、注意点に学習可能なログパワー機能を導入し、エントロピーを減らし焦点を鋭くする。
論文 参考訳(メタデータ) (2025-10-12T14:22:32Z) - SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention [88.47701139980636]
Diffusion Transformer(DiT)モデルでは、特にビデオ生成において、注意遅延が大きなボトルネックとなっている。
注目重量は2つの部分に分けられる: 高いランクの大型重量のごく一部と、非常に低いランクの残りの重量の2つである。
本稿では,拡散モデルを高速化するために,疎度と直線的注意を融合させる訓練可能な注意法SLAを提案する。
論文 参考訳(メタデータ) (2025-09-28T17:58:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。