論文の概要: DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services
- arxiv url: http://arxiv.org/abs/2502.11417v1
- Date: Mon, 17 Feb 2025 04:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:45.059546
- Title: DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services
- Title(参考訳): DiSCo: デバイスサーバによるLLMベースのテキストストリーミングサービス
- Authors: Ting Sun, Penghan Wang, Fan Lai,
- Abstract要約: テキストストリーミングサービスにおける大規模言語モデルの急速な普及は、大きなコストとQuality of Experienceの課題をもたらしている。
リクエストを適応的にルーティングすることでユーザのQoEを最適化するデバイスサーバ協調型スケジューラの紹介を行う。
モデルデバイス構成の異なるTTFT(11-52%)とTTFT(6-78%)を減らし,QoEを向上できることを示す。
- 参考スコア(独自算出の注目度): 3.348953136575379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise of large language models (LLMs) in text streaming services has introduced significant cost and Quality of Experience (QoE) challenges in serving millions of daily requests, especially in meeting Time-To-First-Token (TTFT) and Time-Between-Token (TBT) requirements for real-time interactions. Our real-world measurements show that both server-based and on-device deployments struggle to meet diverse QoE demands: server deployments face high costs and last-hop issues (e.g., Internet latency and dynamics), while on-device LLM inference is constrained by resources. We introduce DiSCo, a device-server cooperative scheduler designed to optimize users' QoE by adaptively routing requests and migrating response generation between endpoints while maintaining cost constraints. DiSCo employs cost-aware scheduling, leveraging the predictable speed of on-device LLM inference with the flexible capacity of server-based inference to dispatch requests on the fly, while introducing a token-level migration mechanism to ensure consistent token delivery during migration. Evaluations on real-world workloads -- including commercial services like OpenAI GPT and DeepSeek, and open-source deployments such as LLaMA3 -- show that DiSCo can improve users' QoE by reducing tail TTFT (11-52\%) and mean TTFT (6-78\%) across different model-device configurations, while dramatically reducing serving costs by up to 84\% through its migration mechanism while maintaining comparable QoE levels.
- Abstract(参考訳): テキストストリーミングサービスにおける大規模言語モデル(LLM)の急速な普及は、特にリアルタイムインタラクションにおけるTTFT(Time-To-First-Token)とTBT(Time-Between-Token)の要件を満たす場合、数百万の日次要求を処理する上で、大きなコストとQuality of Experience(QoE)の課題をもたらしている。
サーバのデプロイメントは、高いコストとラストホップ問題(インターネットのレイテンシやダイナミクスなど)に直面していますが、オンデバイスLSM推論はリソースによって制約されています。
要求を適応的にルーティングし、エンドポイント間で応答生成を移行し、コスト制約を維持しながら、ユーザのQoEを最適化するデバイスサーバ協調型スケジューラであるDiSCoを紹介する。
DiSCoはコストアウェアなスケジューリングを採用し、オンデバイスLSM推論の予測可能な速度とサーバベースの推論の柔軟なキャパシティを活用してリクエストを即時にディスパッチすると同時に、移行中に一貫したトークン配信を保証するトークンレベルのマイグレーションメカニズムを導入している。
OpenAI GPTやDeepSeekなどの商用サービスやLLaMA3などのオープンソースデプロイメントなど、現実世界のワークロードの評価によると、DiSCoは、テールTTFT(11-52\%)を削減し、さまざまなモデルデバイス構成にわたるTTFT(6-78\%)を平均し、同じQoEレベルを維持しながら、移行メカニズムを通じて最大84\%のサービスコストを劇的に削減することで、ユーザのQoEを改善することができる。
関連論文リスト
- Cooperative Task Offloading through Asynchronous Deep Reinforcement Learning in Mobile Edge Computing for Future Networks [2.9057981978152116]
我々はTransformer-driven Prediction (CTO-TP) を用いたレイテンシとエネルギー効率のよい協調タスクオフロードフレームワークを提案する。
提案したCTO-TPアルゴリズムは,ベースライン方式と比較して,システム全体の80%のレイテンシと87%のエネルギー消費を削減している。
論文 参考訳(メタデータ) (2025-04-24T13:12:12Z) - Tempo: Application-aware LLM Serving with Mixed SLO Requirements [7.290735867969561]
我々は、多様なLLMワークロード間のサービスゲインを最大化するように設計されたスケジューラであるTempoを紹介した。
我々の評価によると、Tempoは最先端の設計と比較して、最大で8.3$times$、最大で10.3$times$SLOのサービスゲインを改善する。
論文 参考訳(メタデータ) (2025-04-24T05:55:21Z) - Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。
本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Leveraging Interpretability in the Transformer to Automate the Proactive Scaling of Cloud Resources [1.1470070927586018]
我々は、エンドツーエンドのレイテンシ、フロントエンドレベルの要求、リソース利用の関係をキャプチャするモデルを開発する。
次に、開発したモデルを使用して、エンドツーエンドのレイテンシを予測します。
マイクロサービスベースのアプリケーションのメリットを示し、デプロイメントのロードマップを提供します。
論文 参考訳(メタデータ) (2024-09-04T22:03:07Z) - One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving [2.9164564021428845]
大規模言語モデル(LLM)サービスのためのマルチモデルキュー管理フレームワークを提案する。
QLM は複数の LLM Serving Operations (LSOs) の動作をオーケストレーションし、HOL ブロックの削減と達成率の最大化を図っている。
実世界のLLMサービスデータセットを用いた異種GPUデバイスおよびモデルの評価では、QLMはSLO達成率を40-90%改善し、スループットを20-400%向上した。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - Llumnix: Dynamic Scheduling for Large Language Model Serving [17.919408899409113]
大規模言語モデル(LLM)に対する推論は、その可能性を解き放つ鍵である。
Llumnixは、実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。
Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,最大36%のコスト削減を実現している。
論文 参考訳(メタデータ) (2024-06-05T13:20:18Z) - Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services [18.856801632455678]
大規模言語モデル(LLM)は現在、リアルタイム翻訳やチャットボットといった会話型AIサービスの中核にある。
本稿では,テキストストリーミングサービスにおけるQoE(Quality-of-Experience)の概念を,各ユーザのエンド・ツー・エンドのインタラクション・タイムラインを考慮して導入し,定義する。
本稿では,QoE 対応 LLM サービスシステムである Andes を提案する。
論文 参考訳(メタデータ) (2024-04-25T01:56:00Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud
Computing [73.7522199491117]
量子クラウドコンピューティング(QCC)は、量子コンピューティングリソースを効率的に提供するための有望なアプローチを提供する。
ユーザ需要の変動と量子回路の要求は、効率的なリソース供給のために困難である。
本稿では、量子コンピューティングとネットワークリソースのプロビジョニングのためのリソース割り当てモデルを提案する。
論文 参考訳(メタデータ) (2023-07-25T00:38:46Z) - Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。
本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。
提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-15T22:04:49Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Time-sensitive Learning for Heterogeneous Federated Edge Intelligence [52.83633954857744]
フェデレーションエッジインテリジェンス(FEI)システムにおけるリアルタイム機械学習について検討する。
FEIシステムは異種通信と計算資源分布を示す。
本稿では,共有MLモデルの協調学習における全体の実行時間を最小化するために,時間依存型フェデレーションラーニング(TS-FL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-26T08:13:22Z) - QoS-Aware Power Minimization of Distributed Many-Core Servers using
Transfer Q-Learning [8.123268089072523]
本稿では,水平スケーリング(ノード割り当て)と垂直スケーリング(ノード内のリソース割り当て)を用いたランタイム対応コントローラを提案する。
水平スケーリングは、ワークロードの要求と要求されたスケーラビリティに基づいて、一連のルールに従ってアクティブノードの数を決定する。
次に、動的電圧/周波数スケーリング(DVFS)を用いてワークロードプロファイルに基づいて電力/性能をチューニングする転送Q-ラーニングを用いて、垂直スケーリングと結合する。
これらの手法を組み合わせると、モデルなしQ-ラーニングと比較して探索時間や違反を減らすことができる。
論文 参考訳(メタデータ) (2021-02-02T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。