論文の概要: Quasar: Quantized Self-Speculative Acceleration for Rapid Inference via Memory-Efficient Verification
- arxiv url: http://arxiv.org/abs/2603.01399v1
- Date: Mon, 02 Mar 2026 03:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.661853
- Title: Quasar: Quantized Self-Speculative Acceleration for Rapid Inference via Memory-Efficient Verification
- Title(参考訳): Quasar: メモリ効率検証による高速推論のための量子自己投機的高速化
- Authors: Guang Huang, Zeyi Wen,
- Abstract要約: textbfQuasar (textbfQuantized textbfSelf-speculative textbfAcceleration for textbfRapid Inference)は、この「メモリウォール」を克服するために設計されたトレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 11.585310190276923
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Speculative Decoding (SD) has emerged as a premier technique for accelerating Large Language Model (LLM) inference by decoupling token generation into rapid drafting and parallel verification. While recent advancements in self-speculation and lookahead decoding have successfully minimized drafting overhead, they have shifted the primary performance bottleneck to the verification phase. Since verification requires a full forward pass of the target model, it remains strictly memory-bandwidth bound, fundamentally limiting the maximum achievable speedup.In this paper, we introduce \textbf{Quasar} (\textbf{Qua}ntized \textbf{S}elf-speculative \textbf{A}cceleration for \textbf{R}apid Inference), a novel, training-free framework designed to overcome this "memory wall" by employing low-bit quantization specifically for the verification stage. Our empirical analysis reveals that while aggressive structural pruning significantly degrades verification accuracy, quantization-based verification preserves the logit distribution with high fidelity while effectively halving memory traffic. Extensive experiments on state-of-the-art models (e.g., OpenPangu and Qwen3) demonstrate that Quasar maintains a speculative acceptance length comparable to full-precision methods while achieving a $1.28\times$ improvement in end-to-end throughput. Being orthogonal to existing drafting strategies, Quasar offers a generic and efficient pathway to accelerate the verification leg of speculative execution. Code is available at https://github.com/Tom-HG/Quasar.
- Abstract(参考訳): 投機的復号化(SD)は,トークン生成を高速な起草と並列検証に分離することにより,Large Language Model (LLM)推論を高速化するための最重要技術として登場した。
近年の自己定義とルックアヘッド復号化の進歩は、ドラフトのオーバーヘッドを最小化することに成功したが、彼らは主要なパフォーマンスボトルネックを検証フェーズに移行した。
本稿では、検証段階に特化して低ビット量子化を採用することで、この「メモリウォール」を克服するために設計された、新しい学習自由フレームワークである \textbf{Quasar} (\textbf{Qua}ntized \textbf{S}elf-speculative \textbf{A}cceleration for \textbf{R}apid Inference)を紹介する。
実験により,アグレッシブ・プルーニングは検証精度を著しく低下させるが,量子化に基づく検証は,メモリトラフィックを効果的に半減させながら高い忠実度でロジット分布を保っていることがわかった。
最先端モデル(例:OpenPangu、Qwen3)に関する大規模な実験は、Quasarが完全な精度の手法に匹敵する投機的受容期間を維持しつつ、エンドツーエンドのスループットを1.28\times$改善したことを示している。
既存の起草戦略と直交するので、Quasarは投機的実行の検証を加速する汎用的で効率的な経路を提供する。
コードはhttps://github.com/Tom-HG/Quasar.comで入手できる。
関連論文リスト
- TriSpec: Ternary Speculative Decoding via Lightweight Proxy Verification [63.65902785448346]
投機的復号化は、その軽量なドラフトと並列検証機構を通じて、大幅なスピードアップを提供する。
計算コストを大幅に削減する軽量なプロキシを新たに導入した3次SDフレームワークであるTriSpecを提案する。
Qwen3およびDeepSeek-R1-Distill-Qwen/LLaMAファミリーの実験は、TriSpecが標準SDよりも最大35%のスピードアップを達成したことを示している。
論文 参考訳(メタデータ) (2026-01-30T17:04:18Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - MixKVQ: Query-Aware Mixed-Precision KV Cache Quantization for Long-Context Reasoning [30.527521568636242]
Long Chain-of-Thought (CoT)推論は、Large Language Models (LLM)の機能を大幅に進歩させた。
既存の低ビット量子化法は、複雑な推論タスクにおいて深刻な性能劣化を示すことが多い。
重要鍵チャネルを識別・保存するための軽量なクエリ対応アルゴリズムであるMixKVQを提案する。
論文 参考訳(メタデータ) (2025-12-22T09:44:26Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - VecInfer: Efficient LLM Inference with Low-Bit KV Cache via Outlier-Suppressed Vector Quantization [23.781285860723248]
キーバリュー(KV)キャッシュは、大きな言語モデル(LLM)推論中にメモリオーバーヘッドを導入する。
本稿では,効率的な推論を実現しつつ,能動的KVキャッシュ圧縮のための新しいVQ手法であるVecInferを提案する。
VecInferは、長いコンテキスト理解と数学的推論タスクの両方において、既存の量子化ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-07T17:35:28Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。
この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。
重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文 参考訳(メタデータ) (2024-03-29T12:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。