論文の概要: Scaling Attention via Feature Sparsity
- arxiv url: http://arxiv.org/abs/2603.22300v1
- Date: Tue, 17 Mar 2026 08:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.033332
- Title: Scaling Attention via Feature Sparsity
- Title(参考訳): 特徴空間による注意のスケーリング
- Authors: Yan Xie, Tiansheng Wen, Tangda Huang, Bo Chen, Chenyu You, Stefanie Jegelka, Yifei Wang,
- Abstract要約: 超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
- 参考スコア(独自算出の注目度): 50.64995497733461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling Transformers to ultra-long contexts is bottlenecked by the $O(n^2 d)$ cost of self-attention. Existing methods reduce this cost along the sequence axis through local windows, kernel approximations, or token-level sparsity, but these approaches consistently degrade accuracy. In this paper, we instead explore an orthogonal axis: feature sparsity. We propose Sparse Feature Attention (SFA), where queries and keys are represented as $k$-sparse codes that preserve high-dimensional expressivity while reducing the cost of attention from $Θ(n^2 d)$ to $Θ(n^2 k^2/d)$. To make this efficient at scale, we introduce FlashSFA, an IO-aware kernel that extends FlashAttention to operate directly on sparse overlaps without materializing dense score matrices. Across GPT-2 and Qwen3 pretraining, SFA matches dense baselines while improving speed by up to $2.5\times$ and reducing FLOPs and KV-cache by nearly 50\%. On synthetic and downstream benchmarks, SFA preserves retrieval accuracy and robustness at long contexts, outperforming short-embedding baselines that collapse feature diversity. These results establish feature-level sparsity as a complementary and underexplored axis for efficient attention, enabling Transformers to scale to orders-of-magnitude longer contexts with minimal quality loss. Code is available at https://github.com/YannX1e/Sparse-Feature-Attention.
- Abstract(参考訳): 超長期のコンテキストへの変換器のスケーリングは、O(n^2 d)$の自己注意コストによってボトルネックとなる。
既存の手法では、ローカルウィンドウ、カーネル近似、トークンレベルの間隔を通じてシーケンス軸に沿ってこのコストを削減しているが、これらのアプローチは一貫して精度を低下させる。
本稿では,その代わりに直交軸である特徴空間を探索する。
本稿では,クエリとキーを$k$のスパースコードとして表現し,高次元表現性を保ちながら,注意のコストを$s(n^2 k^2/d)$から$s(n^2 k^2/d)$に下げるスパース特徴注意(Sparse Feature Attention,SFA)を提案する。
これを実現するため,高密度スコア行列を具体化せずにFlashAttentionを拡張してスパースオーバーラップを直接操作するIO対応カーネルであるFlashSFAを導入する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5\times$で、FLOPsとKV-cacheを約50%削減する。
合成および下流ベンチマークでは、SFAは長いコンテキストでの検索精度と堅牢性を保ち、特徴の多様性を崩壊させる短い埋め込みベースラインよりも優れている。
これらの結果は、効率よく注目するための補完的かつ未探索な軸として機能レベルの空間性を確立し、トランスフォーマーは最小品質の損失を伴って、より長期のコンテキストにスケールすることができる。
コードはhttps://github.com/YannX1e/Sparse-Feature-Attentionで入手できる。
関連論文リスト
- FASA: Frequency-aware Sparse Attention [56.26881872333624]
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T06:09:06Z) - SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention [10.607730369798551]
入力適応型学習ゲートを導入し,情報集約をKV$特徴写像に選択的に変調する。
SAGAはスループットが1.76$times$改善され、PVT-Tと比較してピークGPUメモリが2.69$times$削減された。
ImageNetデータセットでトップ1の精度を最大4.4%向上させ、計算効率とモデルの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-16T08:36:05Z) - Spark Transformer: Reactivating Sparsity in FFN and Attention [53.221448818147024]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - VAMO: Efficient Zeroth-Order Variance Reduction for SGD with Faster Convergence [6.574641780732972]
大規模非問題はディープラーニングでは一般的である。
ファーストオーダー(FO)は今日のベースラインとして機能する。
ZOアルゴリズムは計算量とメモリコストを減らす。
VAMOは、より少ない動的メモリ要求でこれらのゲインを達成する。
論文 参考訳(メタデータ) (2025-05-20T05:31:15Z) - Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。
本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。
提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文 参考訳(メタデータ) (2025-04-17T12:52:08Z) - Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。
我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文 参考訳(メタデータ) (2025-02-03T19:24:01Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。