論文の概要: SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs
- arxiv url: http://arxiv.org/abs/2505.17052v1
- Date: Fri, 16 May 2025 14:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.50168
- Title: SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs
- Title(参考訳): SpecEdge: インタラクティブなLLMのためのスケーラブルなエッジアシスト型サービングフレームワーク
- Authors: Jinwoo Park, Seunggeun Cho, Dongsu Han,
- Abstract要約: 大規模言語モデル(LLM)は多くのモダンなアプリケーションに電力を供給するが、大規模で費用がかかり、リソースを消費する。
私たちは、エッジとサーバGPU間でLLMワークロードを分割する、エッジ支援推論フレームワークであるSpecEdgeを紹介します。
SpecEdgeはサーバのスループットを2.22倍にすることでコスト効率を1.91倍に向上し、サーバのみのベースラインに比べてトークン間のレイテンシを11.24%削減する。
- 参考スコア(独自算出の注目度): 3.417027762559937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) power many modern applications, but serving them at scale remains costly and resource-intensive. Current server-centric systems overlook consumer-grade GPUs at the edge. We introduce SpecEdge, an edge-assisted inference framework that splits LLM workloads between edge and server GPUs using a speculative decoding scheme, exchanging only token outputs over the network. SpecEdge employs proactive edge drafting to overlap edge token creation with server verification and pipeline-aware scheduling that interleaves multiple user requests to increase server-side throughput. Experiments show SpecEdge enhances overall cost efficiency by 1.91x through achieving 2.22x server throughput, and reduces inter token latency by 11.24% compared to a server-only baseline, introducing a scalable, cost-effective paradigm for LLM serving.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのモダンなアプリケーションに電力を供給するが、大規模で費用がかかり、リソースを消費する。
現在のサーバ中心のシステムは、エッジでコンシューマグレードのGPUを見下ろしています。
SpecEdgeは、エッジとサーバのGPU間でLLMワークロードを分割する、エッジ支援推論フレームワークで、投機的デコードスキームを使用して、ネットワーク上のトークン出力のみを交換する。
SpecEdgeでは、エッジトークン生成とサーバ検証、複数のユーザリクエストをインターリーブしてサーバ側のスループットを向上させるパイプライン対応スケジューリングの重複に、プロアクティブなエッジドラフトを採用している。
SpecEdgeはサーバのスループットを2.22倍にすることでコスト効率を1.91倍に向上し、サーバのみのベースラインに比べてトークン間のレイテンシを11.24%削減し、LLMサービスのためのスケーラブルで費用対効果の高いパラダイムを導入している。
関連論文リスト
- ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。
我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。
オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z) - Hierarchical Quantized Federated Learning: Convergence Analysis and
System Design [7.481427303081613]
フェデレーション学習は、クライアントのプライベートデータなしでディープニューラルネットワークをトレーニングするコラボレーティブマシンである。
以前の作業は、クラウドまたはエッジで1つの中央パラメータを仮定します。
本稿では,両クラウドサーバの利点を活用し,階層型量子化フェデレート学習システムについて考察する。
論文 参考訳(メタデータ) (2021-03-26T05:48:36Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。