論文の概要: QuickSilver -- Speeding up LLM Inference through Dynamic Token Halting, KV Skipping, Contextual Token Fusion, and Adaptive Matryoshka Quantization
- arxiv url: http://arxiv.org/abs/2506.22396v1
- Date: Fri, 27 Jun 2025 17:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.30433
- Title: QuickSilver -- Speeding up LLM Inference through Dynamic Token Halting, KV Skipping, Contextual Token Fusion, and Adaptive Matryoshka Quantization
- Title(参考訳): QuickSilver -- 動的トークンハルティング、KVスキッピング、コンテキストトークンフュージョン、アダプティブマトリリシカ量子化によるLLM推論の高速化
- Authors: Danush Khanna, Aditya Kumar Guru, Srivarshinee Sridhar, Zidan Ahmed, Rubhav Bahirwani, Meetu Malhotra, Vinija Jain, Aman Chadha, Amitava Das, Kripabandhu Ghosh,
- Abstract要約: 推論は、大きな言語モデルにおける遅延とエネルギー消費の大部分を占める。
QuickSilverはモジュール型のトークンレベルのフレームワークで、モデルウェイトや構造を変更することなく、推論時のセマンティックアダプティビティを実現する。
- 参考スコア(独自算出の注目度): 7.188043811595143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference accounts for the majority of latency and energy consumption in large language model (LLM) deployments, often exceeding 90% of total cost. While training-time efficiency has seen extensive progress, runtime optimization remains a key bottleneck, particularly under autoregressive decoding. Existing approaches -- such as pruning, quantization, early exits, and speculative decoding -- often require retraining, architectural changes, or disrupt decoding compatibility. We introduce QuickSilver, a modular, token-level framework that enables semantic adaptivity at inference time without altering model weights or structure. QuickSilver integrates four synergistic mechanisms: (i) Dynamic Token Halting, which halts computation for tokens with converged representations; (ii) KV Cache Skipping, which selectively suppresses memory writes to reduce attention overhead; and (iii) Contextual Token Fusion, which collapses redundant tokens into shared paths to shrink sequence length. Unlike speculative decoding or MoE routing, QuickSilver operates entirely on frozen, dense models and requires no auxiliary networks. Applied to GPT-2 and Llama-2 across WikiText-103 and C4, QuickSilver achieves up to 39.6% FLOP reduction with negligible perplexity degradation (<=0.2).
- Abstract(参考訳): 推論は、大規模言語モデル(LLM)デプロイメントにおける遅延とエネルギー消費の大部分を占め、総コストの90%を超えている。
トレーニング時間の効率は大きな進歩を遂げているが、実行時の最適化は、特に自己回帰的復号化の下で重要なボトルネックとなっている。
プルーニング、量子化、アーリーエグジット、投機的デコードといった既存のアプローチでは、リトレーニング、アーキテクチャの変更、あるいはデコード互換性の破壊が必要になることが多い。
QuickSilverはモジュール型のトークンレベルのフレームワークで、モデルウェイトや構造を変更することなく、推論時のセマンティックアダプティビティを実現する。
QuickSilverは4つの相乗的メカニズムを統合している。
一 収束表現を伴うトークンの計算を停止する動的トークンハルティング
(ii)KVキャッシュのスキッピング。メモリ書き込みを選択的に抑制し、注意のオーバーヘッドを減らす。
三 冗長トークンを共有パスに分解してシーケンス長を縮めるコンテキストトークン融合。
投機的復号化やMoEルーティングとは異なり、QuickSilverは完全に凍結された高密度モデルで動作し、補助的なネットワークを必要としない。
WikiText-103 と C4 の GPT-2 と Llama-2 に適用すると、QuickSilver は 39.6% の FLOP の減少と無視できるパープレキシティ劣化 (=0.2) を達成できる。
関連論文リスト
- AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [7.958429361868486]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。