論文の概要: Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps
- arxiv url: http://arxiv.org/abs/2605.16928v1
- Date: Sat, 16 May 2026 10:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.300556
- Title: Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps
- Title(参考訳): フルアテンションが逆戻り:数百のトレーニングステップでフルアテンションをスパースに移行
- Authors: Yanke Zhou, Yiduo Li, Hanlin Tang, Maohua Li, Kan Liu, Lan Tao, Lin Qu, Yuan Yao, Xiaoxing Ma,
- Abstract要約: 大規模言語モデルにおける長文推論は、注意の2次コストによってボトルネックとなる。
フルアテンション LLM は本質的にスパースであり,最小限の適応しか持たない高度スパースモデルに変換可能であることを示す。
RTPurboは、モデル固有のスパーシリティを活用することで、わずか数百のトレーニングステップでスパーシフィケーションを実現する。
- 参考スコア(独自算出の注目度): 12.944531570933854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inference in large language models is bottlenecked by the quadratic cost of full attention. Existing efficient alternatives often rely either on native sparse training or on heuristic token eviction, creating an undesirable trade-off among efficiency, training cost, and accuracy. In this work, we show that full-attention LLMs are already intrinsically sparse and can be transformed into highly sparse models with only minimal adaptation. Our approach is built on three observations: (1) only a small subset of attention heads truly requires full long-context processing; (2) long-range retrieval is governed primarily by a low-dimensional subspace, allowing relevant tokens to be retrieved efficiently with a 16-dimensional indexer; and (3) the useful token budget is strongly query-dependent, making dynamic top-$p$ selection more suitable than fixed top-$k$ sparsification. Based on these insights, we propose RTPurbo, which retains the full KV cache only for retrieval heads and introduces a lightweight token indexer for sparse attention. By exploiting the model's intrinsic sparsity, RTPurbo achieves sparsification with only a few hundred training steps. Experiments on long-context benchmarks and reasoning tasks show that RTPurbo preserves near-lossless accuracy while delivering substantial efficiency gains, including up to a 9.36$\times$ prefill speedup at 1M context and about a 2.01$\times$ decode speedup. These results suggest that strong sparse inference can be obtained from standard full-attention training without expensive native sparse pretraining.
- Abstract(参考訳): 大規模言語モデルにおける長文推論は、注意の2次コストによってボトルネックとなる。
既存の効率的な代替手段は、しばしばネイティブスパーストレーニングやヒューリスティックトークンの排除に依存し、効率性、トレーニングコスト、正確性の間に望ましくないトレードオフを生み出す。
そこで本研究では,本研究では,LLMは本質的にスパースであり,最小限の適応しか持たない高度スパースモデルに変換可能であることを示す。
提案手法は,(1)注目ヘッドの小さなサブセットのみに完全長文処理が必要であり,(2)長距離検索は,主に低次元のサブスペースによって管理され,関連するトークンを16次元インデクサで効率的に検索することが可能であり,(3)有用なトークン予算はクエリ依存であり,動的トップ$p$選択が固定トップ$spsificationよりも適している,という3つの観測に基づいて構築されている。
これらの知見に基づいて,検索ヘッドのみに全KVキャッシュを保持するRTPurboを提案する。
RTPurboは、モデル固有のスパーシリティを活用することで、わずか数百のトレーニングステップでスパーシフィケーションを実現する。
長期コンテキストベンチマークと推論タスクの実験では、RTPurboは、最大で9.36$\times$1Mコンテキストでのプリフィルスピードアップと2.01$\times$デコードスピードアップなど、大幅な効率向上を達成しながら、ほぼロスレスの精度を保っている。
これらの結果から,高額なスパース事前訓練を伴わない,標準的なフルアテンショントレーニングから,強いスパース推論が得られることが示唆された。
関連論文リスト
- Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning [6.468843780300177]
モデル精度を犠牲にすることなく計算効率を向上する訓練不要なスパースアテンション機構である textbfDELTA を提案する。
この結果から,中間注意マップの選択的再利用は,より効率的な長文推論への頑健な道を提供することが示された。
論文 参考訳(メタデータ) (2025-10-10T21:37:49Z) - vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文 参考訳(メタデータ) (2025-10-07T08:46:08Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Sparsity Forcing: Reinforcing Token Sparsity of MLLMs [40.93786579652003]
マルチモーダル大規模言語モデル(MLLM)におけるトークンの分散性を,単純なRLベースのポストトレーニングフレームワークであるtextitSparsity Forcing を用いて明示的に強化する。
本手法では,複数ロールアウトを異なるトークン予算で実行し,効率(トーケン還元率)と性能(回答正当性)の両方を共同報酬として定式化することにより,効率・正確性トレードオフを探索する。
論文 参考訳(メタデータ) (2025-04-23T01:45:55Z) - Twilight: Adaptive Attention Sparsity with Hierarchical Top-$p$ Pruning [36.25003932215851]
Twilightは、既存のスパースアテンションアルゴリズムに適応性をもたらすフレームワークである。
Twilightは、冗長トークンの少なくとも98%で適応的にプルーし、自己アテンション操作で15.4タイム=アクセラレーション、トークン毎のエンドツーエンドでのアクセラレーションで3.9タイム=アクセラレーションを実現している。
論文 参考訳(メタデータ) (2025-02-04T23:26:10Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Post-Training Sparse Attention with Double Sparsity [44.772593893621085]
ダブルスパシティ」は、KVキャッシュアクセスを減らすことで、このボトルネックを軽減するために設計された、訓練後スパースアテンション技術である。
Double Sparsityは、自己アテンションを計算するための重要なトークンのみを活用するトークンのスペシャリティと、重要なトークンを識別するための重要な機能チャネルを使用するチャネルのスペシャリティを組み合わせたものだ。
オフローディングにより、16.3$times$のデコード速度を、256Kのシークエンス長の最先端のソリューションと比較して達成する。
論文 参考訳(メタデータ) (2024-08-11T18:40:36Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。