論文の概要: Lever: Speculative LLM Inference on Smartphones
- arxiv url: http://arxiv.org/abs/2605.16786v1
- Date: Sat, 16 May 2026 03:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.020947
- Title: Lever: Speculative LLM Inference on Smartphones
- Title(参考訳): Lever氏:スマートフォンにおける投機的LCM推論
- Authors: Tuowei Wang, Fengzu Li, Yanfan Sun, Wei Gao, Ju Ren,
- Abstract要約: 対話型モバイルアプリケーションには、大規模言語モデル(LLM)がますます必要である。
本稿では,スマートフォン上でのフラッシュバック型LLM推論のためのエンドツーエンドシステムであるLeverを紹介する。
- 参考スコア(独自算出の注目度): 11.768438191539374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly needed for interactive mobile applications, but high-quality models exceed the limited DRAM available on smartphones. Flash storage can hold larger models, yet flash-backed inference is slow because autoregressive decoding repeatedly invokes the target model and incurs costly I/O. We observe that speculative decoding is a natural fit for this setting: a small draft model can remain in DRAM, while a larger flash-resident target model verifies multiple candidate tokens per invocation. However, existing methods assume server-class accelerators and fail to account for prolonged I/O latency, limited computation parallelism, and irregular speculation execution. We present Lever, an end-to-end system for efficient flash-backed LLM inference on smartphones. Lever jointly optimizes the three stages of speculative decoding under mobile constraints. For drafting, it builds token trees using an I/O- and compute-aware gain-cost objective. For verification, it prunes low-value branches through early-exit prediction to reduce target-model computation. For execution, it maps speculation efficiently across mobile CPU-NPU hardware to improve utilization. Comprehensive evaluations show that Lever reduces inference latency by an average of 2.93x over baseline flash-offloaded inference and 1.50x over conventional speculative decoding, narrowing the latency gap between flash-backed and memory-resident LLM inference.
- Abstract(参考訳): 対話型モバイルアプリケーションには大規模言語モデル(LLM)がますます必要とされているが、高品質モデルはスマートフォンで利用可能な限られたDRAMを超えている。
フラッシュストレージはより大きなモデルを保持することができるが、自動回帰復号がターゲットモデルを繰り返し呼び出し、コストのかかるI/Oを引き起こすため、フラッシュバックの推論は遅い。
我々は、投機的復号化がこの設定に自然に適合していることを観察し、小さなドラフトモデルがDRAMに留まりうる一方で、より大きなフラッシュ・レジデントターゲットモデルが呼び出し毎に複数の候補トークンを検証する。
しかし、既存の手法ではサーバクラスのアクセラレータを仮定し、長時間のI/Oレイテンシ、計算並列性の制限、不規則な投機実行を考慮できない。
本稿では,スマートフォン上でのフラッシュバック型LLM推論のためのエンドツーエンドシステムであるLeverを紹介する。
Leverはモバイル制約下での投機的デコーディングの3段階を共同で最適化する。
ドラフト作成には、I/Oとコンピューティング対応のゲインコストの目標を使用してトークンツリーを構築する。
検証のために、ターゲットモデル計算を減らすために、早期終了予測を通じて低値分岐を創出する。
実行のために、モバイルCPU-NPUハードウェア間での推測を効率的にマッピングし、利用率を改善する。
総合的な評価では、Leverはベースラインのフラッシュオフロードされた推論よりも平均2.93倍、従来の投機的デコーディングよりも1.50倍の遅延を減らし、フラッシュバックされたLLM推論とメモリ常駐のLLM推論のレイテンシギャップを狭める。
関連論文リスト
- LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs [90.77662862634509]
LiteFrameは、ビデオ大言語モデルのための強力な、しかし非常に効率的なバックボーンである。
LiteFrameはエンドツーエンドのレイテンシを35%削減し、8$times$より多くのフレームを処理する。
計算予算の固定化により,より長めの映像理解を解き明かす可能性を示した。
論文 参考訳(メタデータ) (2026-05-17T05:02:52Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Democratizing Agentic AI with Fast Test-Time Scaling on the Edge [14.889726225226175]
FlashTTS は TTS をメモリ制約付き LLM 推論に活用するサービスシステムである。
vLLM用のプラグイン・アンド・プレイライブラリとして構築されたFlashTTSは、単一のコンシューマGPU上でエッジLLMを使用して、大規模なクラウドモデルの正確性とレイテンシを一致させることができる。
評価の結果,FlashTTSは平均2.2倍の高出力を実現し,vLLMベースラインに比べて38%~68%のレイテンシを実現することがわかった。
論文 参考訳(メタデータ) (2025-08-29T19:12:04Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - SpecMemo: Speculative Decoding is in Your Pocket [7.062887337934677]
投機的復号化は本質的に、いくつかの候補トークンを生成するために余分なメモリ割り当てを犠牲にすることに依存する。
より微細なレベルでメモリ割り当てをスマートに制御できるSpecMemoというデバイス対応推論エンジンを提案する。
SpecMemoのメモリ管理では、MT-Benchでの投機的復号化から全体のスループットの96%を維持しています。
論文 参考訳(メタデータ) (2025-05-16T22:12:29Z) - MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。
MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。
Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文 参考訳(メタデータ) (2025-04-16T23:15:09Z) - Fast On-device LLM Inference with NPUs [10.80559106452755]
我々は、オンデバイスニューラルプロセッシングユニット(NPU)オフロードを利用した最初のLCM推論システムであるllm.npuについて述べる。
llm.npuは3つのレベルでプロンプトとモデルを再構築することで、NPUのオフロード効率を向上させる。
初めて、llm.npuは10億規模のモデルで1000トークン/秒以上のプリフィルを達成した。
論文 参考訳(メタデータ) (2024-07-08T12:20:45Z) - S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs [7.816840847892339]
投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。
本研究では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。
提案手法は,最小限のアーキテクチャ変更とデータトレーニングを必要としながら,最高のパフォーマンス・メモリ比の1つを達成した。
論文 参考訳(メタデータ) (2024-05-30T17:54:35Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。