論文の概要: WISP: Waste- and Interference-Suppressed Distributed Speculative LLM Serving at the Edge via Dynamic Drafting and SLO-Aware Batching
- arxiv url: http://arxiv.org/abs/2601.11652v1
- Date: Thu, 15 Jan 2026 16:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.253021
- Title: WISP: Waste- and Interference-Suppressed Distributed Speculative LLM Serving at the Edge via Dynamic Drafting and SLO-Aware Batching
- Title(参考訳): WISP: 動的ドラフトとSLO対応バッチによるエッジでの無駄と干渉抑制型分散投機LSM
- Authors: Xiangchen Li, Jiakun Fan, Qingyuan Wang, Dimitrios Spatharakis, Saeid Ghafouri, Hans Vandierendonck, Deepu John, Bo Ji, Ali R. Butt, Dimitrios S. Nikolopoulos,
- Abstract要約: エッジデバイスからの推論要求の増加は、集中型GPUクラスタ上で計算される。
We propose WISP, a efficient and SLO-aware distributed LLM inference system which are a intelligent speculation controller, a confirmed time estimator and a verification batch scheduler。
大規模な数値結果から、WISPはシステム容量を最大2.1倍、最大4.1倍に改善し、中央集権サービスとSLEDと比較してシステム出力を最大1.94倍、さらに3.7倍に向上することが示された。
- 参考スコア(独自算出の注目度): 9.305759319664483
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Models (LLMs) become increasingly accessible to end users, an ever-growing number of inference requests are initiated from edge devices and computed on centralized GPU clusters. However, the resulting exponential growth in computation workload is placing significant strain on data centers, while edge devices remain largely underutilized, leading to imbalanced workloads and resource inefficiency across the network. Integrating edge devices into the LLM inference process via speculative decoding helps balance the workload between the edge and the cloud, while maintaining lossless prediction accuracy. In this paper, we identify and formalize two critical bottlenecks that limit the efficiency and scalability of distributed speculative LLM serving: Wasted Drafting Time and Verification Interference. To address these challenges, we propose WISP, an efficient and SLO-aware distributed LLM inference system that consists of an intelligent speculation controller, a verification time estimator, and a verification batch scheduler. These components collaboratively enhance drafting efficiency and optimize verification request scheduling on the server. Extensive numerical results show that WISP improves system capacity by up to 2.1x and 4.1x, and increases system goodput by up to 1.94x and 3.7x, compared to centralized serving and SLED, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)がエンドユーザーにアクセスしやすくなれば、エッジデバイスからの推論要求が増加し、集中型GPUクラスタで計算されるようになる。
しかし、計算ワークロードの指数関数的な増加は、エッジデバイスが大半が未使用のままであり、ネットワーク全体での不均衡なワークロードとリソースの非効率をもたらす一方で、データセンタにかなりの負担を課している。
エッジデバイスを投機的復号化によるLLM推論プロセスに統合することは、エッジとクラウドの間のワークロードのバランスを保ちながら、損失のない予測精度を維持するのに役立つ。
本稿では,分散投機LSMサービスにおける効率性とスケーラビリティを抑える2つの重要なボトルネックを特定し,定式化する。
これらの課題に対処するために,知的投機制御器,検証時間推定器,検証バッチスケジューラからなる,効率的でSLO対応の分散LLM推論システムであるWISPを提案する。
これらのコンポーネントは共同でドラフトの効率を高め、サーバ上での検証要求スケジューリングを最適化する。
大規模な数値結果から、WISPはシステム容量を最大2.1倍、最大4.1倍に改善し、中央集権サービスとSLEDと比較してシステム出力を最大1.94倍、さらに3.7倍に向上することが示された。
関連論文リスト
- The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - semi-PD: Towards Efficient LLM Serving via Phase-Wise Disaggregated Computation and Unified Storage [6.805644270436825]
本稿では,分散計算と統一ストレージを特徴とする,新たな大規模言語モデル (LLM) サービスシステムであるセミPDを提案する。
最先端システムと比較して、セミPDはより高い要求レートでレイテンシを低く保ち、リクエスト毎の平均エンドツーエンドレイテンシを1.27-2.58倍削減する。
論文 参考訳(メタデータ) (2025-04-28T15:00:03Z) - Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。
新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。
Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文 参考訳(メタデータ) (2025-04-10T06:51:23Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7309692684728613]
大規模言語モデル(LLM)は通常、多数のデバイスで構成されるGPU/NPUのクラスタから提供される。
以前の作業では、計算との通信を重複させることでこの問題に対処していたが、これらの操作間のデータ依存関係のために厳しい制限が課された。
我々は,AIアクセラレータのオンチップキャッシュにオフチップメモリからモデルウェイトとKVキャッシュをプリセットする新しいフレームワークであるPreSERVEを提案する。
論文 参考訳(メタデータ) (2025-01-14T15:14:10Z) - Split Learning in Computer Vision for Semantic Segmentation Delay Minimization [25.0679083637967]
分割学習(SL)を用いたセマンティックセグメンテーションにおける推論遅延を最小化する新しい手法を提案する。
SLはリソース制約のあるデバイスのためのリアルタイムコンピュータビジョン(CV)アプリケーションのニーズに合わせて調整されている。
論文 参考訳(メタデータ) (2024-12-18T19:07:25Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。