論文の概要: Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling
- arxiv url: http://arxiv.org/abs/2604.18103v1
- Date: Mon, 20 Apr 2026 11:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.830042
- Title: Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling
- Title(参考訳): 安定性は冗長性に影響を及ぼす: デルタアテンション選択Haltingによる長期保存の効率化
- Authors: Yujie Chen, Tailai Chen, Yifeng Gao, Zoe Wanying He, Yijue Xu, Shaobo Wang, Linfeng Zhang,
- Abstract要約: 計算コストのプレフィルは、大規模言語モデルにとって重大なボトルネックとなる。
Delta Attention Selective Halting (DASH)は、セルフアテンション機構の階層的更新ダイナミクスを監視し、安定化トークンを選択的に停止する。
- 参考スコア(独自算出の注目度): 14.757648323881883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prefilling computational costs pose a significant bottleneck for Large Language Models (LLMs) and Large Multimodal Models (LMMs) in long-context settings. While token pruning reduces sequence length, prior methods rely on heuristics that break compatibility with hardware-efficient kernels like FlashAttention. In this work, we observe that tokens evolve toward \textit{semantic fixing points}, making further processing redundant. To this end, we introduce Delta Attention Selective Halting (DASH), a training-free policy that monitors the layer-wise update dynamics of the self-attention mechanism to selectively halt stabilized tokens. Extensive evaluation confirms that DASH generalizes across language and vision benchmarks, delivering significant prefill speedups while preserving model accuracy and hardware efficiency. Code will be released at https://github.com/verach3n/DASH.git.
- Abstract(参考訳): 計算コストの充足は、Large Language Models (LLM) とLarge Multimodal Models (LMM) の長いコンテキスト設定において重大なボトルネックとなる。
トークンプルーニングはシーケンス長を減少させるが、以前の手法はFlashAttentionのようなハードウェア効率の良いカーネルとの互換性を損なうヒューリスティックに依存していた。
本研究では,トークンがtextit{semantic Fix Point} へと進化し,さらなる処理が不要になることを示す。
デルタアテンション選択ハルティング(DASH)は,自己保持機構の階層的更新ダイナミクスを監視し,安定トークンを選択的に停止する訓練自由ポリシーである。
大規模な評価では、DASHが言語とビジョンベンチマークをまたいで一般化し、モデル精度とハードウェア効率を保ちながら、かなりのプリフィルスピードアップを実現することが確認されている。
コードはhttps://github.com/verach3n/DASH.git.comでリリースされる。
関連論文リスト
- LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models [49.93891888238178]
ブロックワイド拡散言語モデル(DLM)は任意の順序で複数のトークンを生成し、自動回帰復号パイプラインに代わる有望な代替手段を提供する。
異なるクエリが異なるプレフィックス位置を選択する場合、KVインフレーション問題により、DLM上では裸のスパースアテンションが失敗する。
キャッシュされたプレフィックスアテンション結果を安定したトークンに再利用し、アクティブトークンのみにスパースアテンションを適用するLOSA(Locality-aware Sparse Attention)を提案する。
論文 参考訳(メタデータ) (2026-04-13T20:53:51Z) - DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning [6.468843780300177]
モデル精度を犠牲にすることなく計算効率を向上する訓練不要なスパースアテンション機構である textbfDELTA を提案する。
この結果から,中間注意マップの選択的再利用は,より効率的な長文推論への頑健な道を提供することが示された。
論文 参考訳(メタデータ) (2025-10-10T21:37:49Z) - SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning [3.502168555273189]
SlimInferは、フォワードパス中にあまり重要でないプロンプトトークンを直接プルーニングすることで推論を加速することを目的としている。
SlimInferは最大$mathbf2.53times$ time-to-first-token(TTFT)スピードアップと$mathbf1.88times$ end-to-end latency reduction for LLaMA3.1-8B-Instructを実現する。
論文 参考訳(メタデータ) (2025-08-08T16:42:38Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。