論文の概要: Speculate Deep and Accurate: Lossless and Training-Free Acceleration for Offloaded LLMs via Substitute Speculative Decoding
- arxiv url: http://arxiv.org/abs/2509.18344v1
- Date: Mon, 22 Sep 2025 19:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.541747
- Title: Speculate Deep and Accurate: Lossless and Training-Free Acceleration for Offloaded LLMs via Substitute Speculative Decoding
- Title(参考訳): 推定深度と精度:代替投機復号によるオフロードLDMの無損失・無訓練加速
- Authors: Pei-Shuo Wang, Jian-Jia Chen, Chun-Che Yang, Chi-Chih Chang, Ning-Chi Huang, Mohamed S. Abdelfattah, Kai-Chiang Wu,
- Abstract要約: SubSpecはパラメータのオフロードを高速化するプラグイン・アンド・プレイ方式である。
MT-BenchではQwen2.5 7Bの9.1倍のスピードアップ、人気の世代ベンチマークではQwen2.5 32Bの12.5倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 10.223767541511991
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The immense model sizes of large language models (LLMs) challenge deployment on memory-limited consumer GPUs. Although model compression and parameter offloading are common strategies to address memory limitations, compression can degrade quality, and offloading maintains quality but suffers from slow inference. Speculative decoding presents a promising avenue to accelerate parameter offloading, utilizing a fast draft model to propose multiple draft tokens, which are then verified by the target LLM in parallel with a single forward pass. This method reduces the time-consuming data transfers in forward passes that involve offloaded weight transfers. Existing methods often rely on pretrained weights of the same family, but require additional training to align with custom-trained models. Moreover, approaches that involve draft model training usually yield only modest speedups. This limitation arises from insufficient alignment with the target model, preventing higher token acceptance lengths. To address these challenges and achieve greater speedups, we propose SubSpec, a plug-and-play method to accelerate parameter offloading that is lossless and training-free. SubSpec constructs a highly aligned draft model by generating low-bit quantized substitute layers from offloaded target LLM portions. Additionally, our method shares the remaining GPU-resident layers and the KV-Cache, further reducing memory overhead and enhance alignment. SubSpec achieves a high average acceptance length, delivering 9.1x speedup for Qwen2.5 7B on MT-Bench (8GB VRAM limit) and an average of 12.5x speedup for Qwen2.5 32B on popular generation benchmarks (24GB VRAM limit).
- Abstract(参考訳): 大きな言語モデル(LLM)の膨大なモデルサイズは、メモリ制限されたコンシューマGPUへのデプロイに挑戦する。
モデル圧縮とパラメータオフロードはメモリ制限に対処するための一般的な戦略であるが、圧縮は品質を低下させ、オフロードは品質を維持するが、推論が遅い。
投機的復号化はパラメータオフロードを加速する有望な経路を示し、高速なドラフトモデルを用いて複数のドラフトトークンを提案し、単一のフォワードパスと並行してターゲットLSMによって検証される。
この方法は、オフロードされた重量移動を含む前方通過におけるデータ転送の時間を削減する。
既存の方法は、しばしば同じ家族の事前訓練された重量に依存するが、カスタムトレーニングされたモデルに合わせて追加の訓練を必要とする。
さらに、ドラフトモデルトレーニングを含むアプローチは、通常、控えめなスピードアップしか得られない。
この制限は、ターゲットモデルとの整合性が不十分であることから生じ、より高いトークンの受入長を防ぐ。
これらの課題に対処し,さらに高速化を図るために,パラメータオフロードを高速化するプラグイン・アンド・プレイ方式であるSubSpecを提案する。
SubSpecは、オフロードされたターゲットLLM部分から低ビットの量子化置換層を生成することで、高度に整合したドラフトモデルを構築する。
さらに,残りのGPU-Resident層とKV-Cacheを共有し,メモリオーバーヘッドを低減し,アライメントを向上させる。
SubSpecは、MT-BenchでQwen2.5 7Bの9.1倍のスピードアップ(8GB VRAM制限)、人気の世代ベンチマークでQwen2.5 32Bの12.5倍のスピードアップ(24GB VRAM制限)を実現している。
関連論文リスト
- SpecVLM: Fast Speculative Decoding in Vision-Language Models [14.243294546325714]
投機的復号化は自己回帰型大規模言語モデル(LLM)を高速化する強力な方法である
視覚言語モデル(VLM)の投機的復号化について検討する。
1.5--2.3xのエンドツーエンドの高速化を完全自己回帰推論で実現する実用システムであるSpecVLMを紹介する。
論文 参考訳(メタデータ) (2025-09-15T11:53:56Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文 参考訳(メタデータ) (2024-02-29T19:55:06Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。