Fugu-MT 論文翻訳(概要): QuickSilver -- Speeding up LLM Inference through Dynamic Token Halting, KV Skipping, Contextual Token Fusion, and Adaptive Matryoshka Quantization

論文の概要: QuickSilver -- Speeding up LLM Inference through Dynamic Token Halting, KV Skipping, Contextual Token Fusion, and Adaptive Matryoshka Quantization

arxiv url: http://arxiv.org/abs/2506.22396v1
Date: Fri, 27 Jun 2025 17:10:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 21:12:23.30433
Title: QuickSilver -- Speeding up LLM Inference through Dynamic Token Halting, KV Skipping, Contextual Token Fusion, and Adaptive Matryoshka Quantization
Title（参考訳）: QuickSilver -- 動的トークンハルティング、KVスキッピング、コンテキストトークンフュージョン、アダプティブマトリリシカ量子化によるLLM推論の高速化
Authors: Danush Khanna, Aditya Kumar Guru, Srivarshinee Sridhar, Zidan Ahmed, Rubhav Bahirwani, Meetu Malhotra, Vinija Jain, Aman Chadha, Amitava Das, Kripabandhu Ghosh,
Abstract要約: 推論は、大きな言語モデルにおける遅延とエネルギー消費の大部分を占める。 QuickSilverはモジュール型のトークンレベルのフレームワークで、モデルウェイトや構造を変更することなく、推論時のセマンティックアダプティビティを実現する。
参考スコア（独自算出の注目度）: 7.188043811595143
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inference accounts for the majority of latency and energy consumption in large language model (LLM) deployments, often exceeding 90% of total cost. While training-time efficiency has seen extensive progress, runtime optimization remains a key bottleneck, particularly under autoregressive decoding. Existing approaches -- such as pruning, quantization, early exits, and speculative decoding -- often require retraining, architectural changes, or disrupt decoding compatibility. We introduce QuickSilver, a modular, token-level framework that enables semantic adaptivity at inference time without altering model weights or structure. QuickSilver integrates four synergistic mechanisms: (i) Dynamic Token Halting, which halts computation for tokens with converged representations; (ii) KV Cache Skipping, which selectively suppresses memory writes to reduce attention overhead; and (iii) Contextual Token Fusion, which collapses redundant tokens into shared paths to shrink sequence length. Unlike speculative decoding or MoE routing, QuickSilver operates entirely on frozen, dense models and requires no auxiliary networks. Applied to GPT-2 and Llama-2 across WikiText-103 and C4, QuickSilver achieves up to 39.6% FLOP reduction with negligible perplexity degradation (<=0.2).
Abstract（参考訳）: 推論は、大規模言語モデル(LLM)デプロイメントにおける遅延とエネルギー消費の大部分を占め、総コストの90%を超えている。トレーニング時間の効率は大きな進歩を遂げているが、実行時の最適化は、特に自己回帰的復号化の下で重要なボトルネックとなっている。プルーニング、量子化、アーリーエグジット、投機的デコードといった既存のアプローチでは、リトレーニング、アーキテクチャの変更、あるいはデコード互換性の破壊が必要になることが多い。 QuickSilverはモジュール型のトークンレベルのフレームワークで、モデルウェイトや構造を変更することなく、推論時のセマンティックアダプティビティを実現する。 QuickSilverは4つの相乗的メカニズムを統合している。一収束表現を伴うトークンの計算を停止する動的トークンハルティング (ii)KVキャッシュのスキッピング。メモリ書き込みを選択的に抑制し、注意のオーバーヘッドを減らす。三冗長トークンを共有パスに分解してシーケンス長を縮めるコンテキストトークン融合。投機的復号化やMoEルーティングとは異なり、QuickSilverは完全に凍結された高密度モデルで動作し、補助的なネットワークを必要としない。 WikiText-103 と C4 の GPT-2 と Llama-2 に適用すると、QuickSilver は 39.6% の FLOP の減少と無視できるパープレキシティ劣化 (=0.2) を達成できる。

関連論文リスト

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。 AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文参考訳（メタデータ） (2025-06-04T08:32:30Z)
ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [7.958429361868486]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。 ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文参考訳（メタデータ） (2025-03-13T03:36:03Z)
LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。 LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文参考訳（メタデータ） (2025-02-24T18:53:31Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。 LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文参考訳（メタデータ） (2024-06-08T01:35:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。