論文の概要: SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning
- arxiv url: http://arxiv.org/abs/2508.06447v1
- Date: Fri, 08 Aug 2025 16:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.308758
- Title: SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning
- Title(参考訳): SlimInfer:動的トークンプルーニングによる長期LLM推論の高速化
- Authors: Lingkun Long, Rubing Yang, Yushi Huang, Desheng Hui, Ao Zhou, Jianlei Yang,
- Abstract要約: SlimInferは、フォワードパス中にあまり重要でないプロンプトトークンを直接プルーニングすることで推論を加速することを目的としている。
SlimInferは最大$mathbf2.53times$ time-to-first-token(TTFT)スピードアップと$mathbf1.88times$ end-to-end latency reduction for LLaMA3.1-8B-Instructを実現する。
- 参考スコア(独自算出の注目度): 3.502168555273189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inference for Large Language Models (LLMs) is heavily limited by high computational demands. While several existing methods optimize attention computation, they still process the full set of hidden states at each layer, limiting overall efficiency. In this work, we propose SlimInfer, an innovative framework that aims to accelerate inference by directly pruning less critical prompt tokens during the forward pass. Our key insight is an information diffusion phenomenon: As information from critical tokens propagates through layers, it becomes distributed across the entire sequence. This diffusion process suggests that LLMs can maintain their semantic integrity when excessive tokens, even including these critical ones, are pruned in hidden states. Motivated by this, SlimInfer introduces a dynamic fine-grained pruning mechanism that accurately removes redundant tokens of hidden state at intermediate layers. This layer-wise pruning naturally enables an asynchronous KV cache manager that prefetches required token blocks without complex predictors, reducing both memory usage and I/O costs. Extensive experiments show that SlimInfer can achieve up to $\mathbf{2.53\times}$ time-to-first-token (TTFT) speedup and $\mathbf{1.88\times}$ end-to-end latency reduction for LLaMA3.1-8B-Instruct on a single RTX 4090, without sacrificing performance on LongBench. Our code will be released upon acceptance.
- Abstract(参考訳): LLM(Long-Context Inference for Large Language Models)は、高い計算要求によって非常に制限される。
既存のいくつかのメソッドが注意計算を最適化する一方で、各レイヤに隠された状態の完全なセットを処理し、全体的な効率を制限している。
本研究では,前方通過時にあまり重要でないプロンプトトークンを直接プルーニングすることで推論を高速化することを目的とした,革新的なフレームワークであるSlimInferを提案する。
私たちの重要な洞察は情報拡散現象である: クリティカルトークンからの情報が層を通して伝播するにつれて、それはシーケンス全体にわたって分散する。
この拡散過程は、これらの臨界トークンを含む過剰なトークンが隠された状態にプルーニングされると、LSMは意味的整合性を維持することができることを示唆している。
これに触発されたSlimInferは、中間層で隠された状態の冗長なトークンを正確に除去する動的きめ細かなプルーニング機構を導入している。
このレイヤワイズプルーニングは、複雑な予測子なしで必要なトークンブロックをプリパッチする非同期KVキャッシュマネージャを自然に実現し、メモリ使用量とI/Oコストを削減します。
SlimInferは最大$\mathbf{2.53\times}$ Time-to-first-token (TTFT)スピードアップと$\mathbf{1.88\times}$ end-to-end latency reduction for LLaMA3.1-8B-Instruct for LLaMA3.1-8B-Instruct for a single RTX 4090。
私たちのコードは受け入れ次第解放されます。
関連論文リスト
- Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。
モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。
我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文 参考訳(メタデータ) (2025-02-13T02:52:01Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - HSR-Enhanced Sparse Attention Acceleration [19.776342074253435]
大規模言語モデル(LLM)における注意計算を高速化する新しい手法を提案する。
我々は,従来のSoftmaxアテンションとReLUアテンションの両方において,アテンションメカニズム内の固有空間を利用する。
提案手法は,Softmaxの注意を確実に無視できる誤差を導入するのみである。
論文 参考訳(メタデータ) (2024-10-14T05:18:02Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。