論文の概要: SpecMemo: Speculative Decoding is in Your Pocket
- arxiv url: http://arxiv.org/abs/2506.01986v1
- Date: Fri, 16 May 2025 22:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.660858
- Title: SpecMemo: Speculative Decoding is in Your Pocket
- Title(参考訳): SpecMemo: 投機的デコーディングはポケットにある
- Authors: Selin Yildirim, Deming Chen,
- Abstract要約: 投機的復号化は本質的に、いくつかの候補トークンを生成するために余分なメモリ割り当てを犠牲にすることに依存する。
より微細なレベルでメモリ割り当てをスマートに制御できるSpecMemoというデバイス対応推論エンジンを提案する。
SpecMemoのメモリ管理では、MT-Benchでの投機的復号化から全体のスループットの96%を維持しています。
- 参考スコア(独自算出の注目度): 7.062887337934677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in speculative decoding have demonstrated considerable speedup across a wide array of large language model (LLM) tasks. Speculative decoding inherently relies on sacrificing extra memory allocations to generate several candidate tokens, of which acceptance rate drives the speedup. However, deploying speculative decoding on memory-constrained devices, such as mobile GPUs, remains as a significant challenge in real-world scenarios. In this work, we present a device-aware inference engine named SpecMemo that can smartly control memory allocations at finer levels to enable multi-turn chatbots with speculative decoding on such limited memory devices. Our methodology stems from theoretically modeling memory footprint of speculative decoding to determine a lower bound on the required memory budget while retaining speedup. SpecMemo empirically acquires a careful balance between minimizing redundant memory allocations for rejected candidate tokens and maintaining competitive performance gains from speculation. Notably, with SpecMemo's memory management, we maintain 96% of overall throughput from speculative decoding on MT-Bench, with reduced generation-memory by 65% on single Nvidia Titan RTX. Given multiple constrained GPUs, we build on top of previous speculative decoding architectures to facilitate big-model inference by distributing Llama-2-70B-Chat model, on which we provide novel batched speculative decoding to increase usability of multiple small server GPUs. This novel framework demonstrates 2x speedup over distributed and batched vanilla decoding with the base model on eight AMD MI250 GPUs. Moreover, inference throughput increases remarkably 8x with batch size 10. Our work contributes to democratized LLM applications in resource-constrained environments, providing a pathway for faster and cheaper deployment of real-world LLM applications with robust performance.
- Abstract(参考訳): 投機的復号化の最近の進歩は、幅広い大規模言語モデル(LLM)タスクにおいてかなりのスピードアップを示している。
投機的復号化は本質的に、いくつかの候補トークンを生成するために余分なメモリ割り当てを犠牲にすることに依存する。
しかし、モバイルGPUのようなメモリ制限されたデバイスに投機的デコーディングをデプロイすることは、現実世界のシナリオにおいて重要な課題である。
本研究では,SpecMemoというデバイス対応推論エンジンを提案し,メモリ割り当てを細かなレベルでスマートに制御することで,そのような限られたメモリデバイス上で投機的復号化が可能なマルチターンチャットボットを実現する。
提案手法は,投機的復号化のメモリフットプリントを理論的にモデル化し,高速化を保ちながら,必要なメモリ予算を低く設定することに由来する。
SpecMemoは、拒否された候補トークンに対する冗長メモリ割り当てを最小限に抑えることと、憶測による競合的なパフォーマンス向上を維持することのバランスを実験的に取得する。
特に、SpecMemoのメモリ管理では、MT-Benchでの投機的復号化による全体的なスループットの96%を維持しています。
複数の制約付きGPUが与えられた場合、Llama-2-70B-Chatモデルを分散することにより、従来の投機的デコードアーキテクチャの上に構築し、複数の小さなサーバGPUのユーザビリティを高めるために、新しいバッチ化された投機的デコードを提供する。
この新しいフレームワークは、分散およびバッチ化されたバニラデコーディングを8つのAMD MI250 GPUのベースモデルで2倍のスピードアップを示す。
さらに、推論スループットはバッチサイズ10で著しく8倍向上する。
我々の研究は、資源制約のある環境におけるLLMアプリケーションの民主化に寄与し、堅牢な性能で現実のLLMアプリケーションを迅速かつ安価に展開するための経路を提供する。
関連論文リスト
- SpecOffload: Unlocking Latent GPU Capacity for LLM Inference on Resource-Constrained Devices [16.407669822378487]
SpecOffloadは投機的デコーディングをオフロードに埋め込む。
最高のベースラインと比較して、SpecOffloadはGPUコアの利用率を4.49倍改善し、推論スループットを2.54倍向上させた。
論文 参考訳(メタデータ) (2025-05-15T13:10:31Z) - Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。
本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文 参考訳(メタデータ) (2025-03-11T11:21:35Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs [7.816840847892339]
投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。
本研究では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。
提案手法は,最小限のアーキテクチャ変更とデータトレーニングを必要としながら,最高のパフォーマンス・メモリ比の1つを達成した。
論文 参考訳(メタデータ) (2024-05-30T17:54:35Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。