論文の概要: DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services
- arxiv url: http://arxiv.org/abs/2502.11417v1
- Date: Mon, 17 Feb 2025 04:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:36.536351
- Title: DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services
- Title(参考訳): DiSCo: デバイスサーバによるLLMベースのテキストストリーミングサービス
- Authors: Ting Sun, Penghan Wang, Fan Lai,
- Abstract要約: テキストストリーミングサービスにおける大規模言語モデルの急速な普及は、大きなコストとQuality of Experienceの課題をもたらしている。
リクエストを適応的にルーティングすることでユーザのQoEを最適化するデバイスサーバ協調型スケジューラの紹介を行う。
モデルデバイス構成の異なるTTFT(11-52%)とTTFT(6-78%)を減らし,QoEを向上できることを示す。
- 参考スコア(独自算出の注目度): 3.348953136575379
- License:
- Abstract: The rapid rise of large language models (LLMs) in text streaming services has introduced significant cost and Quality of Experience (QoE) challenges in serving millions of daily requests, especially in meeting Time-To-First-Token (TTFT) and Time-Between-Token (TBT) requirements for real-time interactions. Our real-world measurements show that both server-based and on-device deployments struggle to meet diverse QoE demands: server deployments face high costs and last-hop issues (e.g., Internet latency and dynamics), while on-device LLM inference is constrained by resources. We introduce DiSCo, a device-server cooperative scheduler designed to optimize users' QoE by adaptively routing requests and migrating response generation between endpoints while maintaining cost constraints. DiSCo employs cost-aware scheduling, leveraging the predictable speed of on-device LLM inference with the flexible capacity of server-based inference to dispatch requests on the fly, while introducing a token-level migration mechanism to ensure consistent token delivery during migration. Evaluations on real-world workloads -- including commercial services like OpenAI GPT and DeepSeek, and open-source deployments such as LLaMA3 -- show that DiSCo can improve users' QoE by reducing tail TTFT (11-52\%) and mean TTFT (6-78\%) across different model-device configurations, while dramatically reducing serving costs by up to 84\% through its migration mechanism while maintaining comparable QoE levels.
- Abstract(参考訳): テキストストリーミングサービスにおける大規模言語モデル(LLM)の急速な普及は、特にリアルタイムインタラクションにおけるTTFT(Time-To-First-Token)とTBT(Time-Between-Token)の要件を満たす場合、数百万の日次要求を処理する上で、大きなコストとQuality of Experience(QoE)の課題をもたらしている。
サーバのデプロイメントは、高いコストとラストホップ問題(インターネットのレイテンシやダイナミクスなど)に直面していますが、オンデバイスLSM推論はリソースによって制約されています。
要求を適応的にルーティングし、エンドポイント間で応答生成を移行し、コスト制約を維持しながら、ユーザのQoEを最適化するデバイスサーバ協調型スケジューラであるDiSCoを紹介する。
DiSCoはコストアウェアなスケジューリングを採用し、オンデバイスLSM推論の予測可能な速度とサーバベースの推論の柔軟なキャパシティを活用してリクエストを即時にディスパッチすると同時に、移行中に一貫したトークン配信を保証するトークンレベルのマイグレーションメカニズムを導入している。
OpenAI GPTやDeepSeekなどの商用サービスやLLaMA3などのオープンソースデプロイメントなど、現実世界のワークロードの評価によると、DiSCoは、テールTTFT(11-52\%)を削減し、さまざまなモデルデバイス構成にわたるTTFT(6-78\%)を平均し、同じQoEレベルを維持しながら、移行メカニズムを通じて最大84\%のサービスコストを劇的に削減することで、ユーザのQoEを改善することができる。
関連論文リスト
- WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - Leveraging Interpretability in the Transformer to Automate the Proactive Scaling of Cloud Resources [1.1470070927586018]
我々は、エンドツーエンドのレイテンシ、フロントエンドレベルの要求、リソース利用の関係をキャプチャするモデルを開発する。
次に、開発したモデルを使用して、エンドツーエンドのレイテンシを予測します。
マイクロサービスベースのアプリケーションのメリットを示し、デプロイメントのロードマップを提供します。
論文 参考訳(メタデータ) (2024-09-04T22:03:07Z) - One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving [2.9164564021428845]
大規模言語モデル(LLM)サービスのためのマルチモデルキュー管理フレームワークを提案する。
QLM は複数の LLM Serving Operations (LSOs) の動作をオーケストレーションし、HOL ブロックの削減と達成率の最大化を図っている。
実世界のLLMサービスデータセットを用いた異種GPUデバイスおよびモデルの評価では、QLMはSLO達成率を40-90%改善し、スループットを20-400%向上した。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - Llumnix: Dynamic Scheduling for Large Language Model Serving [17.919408899409113]
大規模言語モデル(LLM)に対する推論は、その可能性を解き放つ鍵である。
Llumnixは、実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。
Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,最大36%のコスト削減を実現している。
論文 参考訳(メタデータ) (2024-06-05T13:20:18Z) - Andes: Defining and Enhancing Quality-of-Experience in LLM-Based Text Streaming Services [18.856801632455678]
大規模言語モデル(LLM)は現在、リアルタイム翻訳やチャットボットといった会話型AIサービスの中核にある。
本稿では,テキストストリーミングサービスにおけるQoE(Quality-of-Experience)の概念を,各ユーザのエンド・ツー・エンドのインタラクション・タイムラインを考慮して導入し,定義する。
本稿では,QoE 対応 LLM サービスシステムである Andes を提案する。
論文 参考訳(メタデータ) (2024-04-25T01:56:00Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud
Computing [73.7522199491117]
量子クラウドコンピューティング(QCC)は、量子コンピューティングリソースを効率的に提供するための有望なアプローチを提供する。
ユーザ需要の変動と量子回路の要求は、効率的なリソース供給のために困難である。
本稿では、量子コンピューティングとネットワークリソースのプロビジョニングのためのリソース割り当てモデルを提案する。
論文 参考訳(メタデータ) (2023-07-25T00:38:46Z) - Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。
本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。
提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-15T22:04:49Z) - Time-sensitive Learning for Heterogeneous Federated Edge Intelligence [52.83633954857744]
フェデレーションエッジインテリジェンス(FEI)システムにおけるリアルタイム機械学習について検討する。
FEIシステムは異種通信と計算資源分布を示す。
本稿では,共有MLモデルの協調学習における全体の実行時間を最小化するために,時間依存型フェデレーションラーニング(TS-FL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-26T08:13:22Z) - QoS-Aware Power Minimization of Distributed Many-Core Servers using
Transfer Q-Learning [8.123268089072523]
本稿では,水平スケーリング(ノード割り当て)と垂直スケーリング(ノード内のリソース割り当て)を用いたランタイム対応コントローラを提案する。
水平スケーリングは、ワークロードの要求と要求されたスケーラビリティに基づいて、一連のルールに従ってアクティブノードの数を決定する。
次に、動的電圧/周波数スケーリング(DVFS)を用いてワークロードプロファイルに基づいて電力/性能をチューニングする転送Q-ラーニングを用いて、垂直スケーリングと結合する。
これらの手法を組み合わせると、モデルなしQ-ラーニングと比較して探索時間や違反を減らすことができる。
論文 参考訳(メタデータ) (2021-02-02T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。