論文の概要: DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning
- arxiv url: http://arxiv.org/abs/2510.09883v1
- Date: Fri, 10 Oct 2025 21:37:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.668432
- Title: DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning
- Title(参考訳): DELTA: 動的層認識トークンアテンションによるリアルタイムロングコンテキスト推論
- Authors: Hossein Entezari Zarch, Lei Gao, Chaoyi Jiang, Murali Annavarm,
- Abstract要約: モデル精度を犠牲にすることなく計算効率を向上する訓練不要なスパースアテンション機構である textbfDELTA を提案する。
この結果から,中間注意マップの選択的再利用は,より効率的な長文推論への頑健な道を提供することが示された。
- 参考スコア(独自算出の注目度): 6.468843780300177
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large reasoning models (LRMs) achieve state-of-the-art performance on challenging benchmarks by generating long chains of intermediate steps, but their inference cost is dominated by decoding, where each new token must attend to the entire growing sequence. Existing sparse attention methods reduce computation by pruning the key-value (KV) cache, yet they suffer from severe accuracy degradation on reasoning tasks due to cumulative selection errors and the dynamic importance of tokens over long derivations. We present \textbf{DELTA}, a training-free sparse attention mechanism that achieves computational efficiency without sacrificing model accuracy. DELTA partitions transformer layers into three groups: initial layers that use full attention, a small set of \emph{selection layers} that identify salient tokens via aggregated head-level attention scores, and subsequent \emph{sparse-attention layers} that attend only to the selected subset. This design preserves the full KV cache in GPU memory for accuracy, while avoiding expensive full-attention computation over many layers. On reasoning benchmarks such as AIME and GPQA-Diamond, DELTA matches or surpasses full attention in accuracy, while reducing the number of attended tokens by up to $5\times$ and delivering $1.5\times$ end-to-end speedup. Our results show that selective reuse of intermediate attention maps offers a robust path toward efficient long-context reasoning.
- Abstract(参考訳): 大きな推論モデル(LRM)は、中間ステップの長い連鎖を生成することによって、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するが、その推論コストはデコードによって支配される。
既存のスパースアテンション手法はキー値(KV)キャッシュをプルーニングすることで計算を減少させるが、累積選択誤差と長期導出よりもトークンの動的重要性による推論タスクの精度の低下に悩まされる。
本稿では,モデル精度を犠牲にすることなく,計算効率を向上する訓練不要なスパースアテンション機構である「textbf{DELTA}」を提案する。
DELTAはトランスフォーマー層を3つのグループに分割する: フルアテンションを使用する初期レイヤ、アグリゲートされたヘッドレベルのアテンションスコアを介してサージェントトークンを識別する小さなセット \emph{selection layer} 、そして、選択されたサブセットにのみ対応する \emph{sparse-attention layer} 。
この設計では、GPUメモリの完全なKVキャッシュを精度良く保存し、多くの層にわたる高価なフルアテンション計算を回避している。
AIMEやGPQA-Diamondのような推論ベンチマークでは、DELTAは正確さで完全な注意を引いたり、達成トークンの数を最大5\times$に減らしたり、1.5\times$エンドツーエンドのスピードアップを提供する。
この結果から,中間注意マップの選択的再利用は,より効率的な長文推論への頑健な道を提供することが示された。
関連論文リスト
- Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning [12.808478519221577]
推論タスクのためのトレーニング不要なスパースアテンション機構であるLessIsMoreを紹介する。
LessIsMoreは、最近のコンテキスト情報とローカルアテンションヘッドからのトークン選択を集約する。
従来のスパースアテンション方式に比べて、エンド・ツー・エンドのスピードアップが1.13タイムズで達成されている。
論文 参考訳(メタデータ) (2025-08-09T21:10:33Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection [23.12497380673902]
Dynamic Token-Level KV Cache Selection (TokenSelect) は、高速で正確な長文推論のためのトレーニング不要な手法である。
TokenSelectの総合的な評価では、注意計算のスピードアップが最大23.84ドル、エンドツーエンドのレイテンシのアクセラレーションが最大2.28ドルである。
論文 参考訳(メタデータ) (2024-11-05T07:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。