Fugu-MT 論文翻訳(概要): SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs

論文の概要: SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs

arxiv url: http://arxiv.org/abs/2505.17052v1
Date: Fri, 16 May 2025 14:17:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.50168
Title: SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs
Title（参考訳）: SpecEdge: インタラクティブなLLMのためのスケーラブルなエッジアシスト型サービングフレームワーク
Authors: Jinwoo Park, Seunggeun Cho, Dongsu Han,
Abstract要約: 大規模言語モデル(LLM)は多くのモダンなアプリケーションに電力を供給するが、大規模で費用がかかり、リソースを消費する。私たちは、エッジとサーバGPU間でLLMワークロードを分割する、エッジ支援推論フレームワークであるSpecEdgeを紹介します。 SpecEdgeはサーバのスループットを2.22倍にすることでコスト効率を1.91倍に向上し、サーバのみのベースラインに比べてトークン間のレイテンシを11.24%削減する。
参考スコア（独自算出の注目度）: 3.417027762559937
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) power many modern applications, but serving them at scale remains costly and resource-intensive. Current server-centric systems overlook consumer-grade GPUs at the edge. We introduce SpecEdge, an edge-assisted inference framework that splits LLM workloads between edge and server GPUs using a speculative decoding scheme, exchanging only token outputs over the network. SpecEdge employs proactive edge drafting to overlap edge token creation with server verification and pipeline-aware scheduling that interleaves multiple user requests to increase server-side throughput. Experiments show SpecEdge enhances overall cost efficiency by 1.91x through achieving 2.22x server throughput, and reduces inter token latency by 11.24% compared to a server-only baseline, introducing a scalable, cost-effective paradigm for LLM serving.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くのモダンなアプリケーションに電力を供給するが、大規模で費用がかかり、リソースを消費する。現在のサーバ中心のシステムは、エッジでコンシューマグレードのGPUを見下ろしています。 SpecEdgeは、エッジとサーバのGPU間でLLMワークロードを分割する、エッジ支援推論フレームワークで、投機的デコードスキームを使用して、ネットワーク上のトークン出力のみを交換する。 SpecEdgeでは、エッジトークン生成とサーバ検証、複数のユーザリクエストをインターリーブしてサーバ側のスループットを向上させるパイプライン対応スケジューリングの重複に、プロアクティブなエッジドラフトを採用している。 SpecEdgeはサーバのスループットを2.22倍にすることでコスト効率を1.91倍に向上し、サーバのみのベースラインに比べてトークン間のレイテンシを11.24%削減し、LLMサービスのためのスケーラブルで費用対効果の高いパラダイムを導入している。

関連論文リスト

Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
EdgeLoRA: An Efficient Multi-Tenant LLM Serving System on Edge Devices [7.596547050649462]
本稿では,マルチテナント環境におけるエッジデバイス上での大規模言語モデル(LLM)の効率的な提供システムであるEdgeLoRAを紹介する。 EdgeLoRAは、(1)アダプタ設定プロセスを合理化するための適応型アダプタ選択機構、(2)インテリジェントなアダプタキャッシュとプーリングを活用してメモリ操作のオーバーヘッドを軽減する不均一なメモリ管理、(3)効率的なバッチ処理を可能にして計算遅延を大幅に削減するバッチLoRA推論という3つの重要なイノベーションを取り入れている。
論文参考訳（メタデータ） (2025-07-02T07:47:28Z)
SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.91607650966469]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。 Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文参考訳（メタデータ） (2025-06-11T04:55:54Z)
ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文参考訳（メタデータ） (2024-10-02T04:12:13Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文参考訳（メタデータ） (2023-05-10T06:17:50Z)
Rediscovering Hashed Random Projections for Efficient Quantization of Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文参考訳（メタデータ） (2023-03-13T10:53:00Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
Multi-model Machine Learning Inference Serving with GPU Spatial Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-01T04:46:46Z)
Hierarchical Quantized Federated Learning: Convergence Analysis and System Design [7.481427303081613]
フェデレーション学習は、クライアントのプライベートデータなしでディープニューラルネットワークをトレーニングするコラボレーティブマシンである。以前の作業は、クラウドまたはエッジで1つの中央パラメータを仮定します。本稿では,両クラウドサーバの利点を活用し,階層型量子化フェデレート学習システムについて考察する。
論文参考訳（メタデータ） (2021-03-26T05:48:36Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。