Fugu-MT 論文翻訳(概要): Learned Best-Effort LLM Serving

論文の概要: Learned Best-Effort LLM Serving

arxiv url: http://arxiv.org/abs/2401.07886v1
Date: Mon, 15 Jan 2024 18:28:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 16:11:43.020334
Title: Learned Best-Effort LLM Serving
Title（参考訳）: ベストエフォートLDMの学習
Authors: Siddharth Jha, Coleman Hooper, Xiaoxuan Liu, Sehoon Kim, Kurt Keutzer
Abstract要約: 本稿では,タスク分布とシステム負荷に基づいてサービス品質を調整するために,深層強化学習を用いたベストエフォートサービスシステムを提案する。当社のベストプラクティスシステムは、10倍以上のクライアント要求率で可用性を維持し、ピークパフォーマンスの96%以上、ピークパフォーマンスの4.1倍、ピークパフォーマンスの98%以上を提供する。
参考スコア（独自算出の注目度）: 34.32797370037155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many applications must provide low-latency LLM service to users or risk unacceptable user experience. However, over-provisioning resources to serve fluctuating request patterns is often prohibitively expensive. In this work, we present a best-effort serving system that employs deep reinforcement learning to adjust service quality based on the task distribution and system load. Our best-effort system can maintain availability with over 10x higher client request rates, serves above 96% of peak performance 4.1x more often, and serves above 98% of peak performance 2.3x more often than static serving on unpredictable workloads. Our learned router is robust to shifts in both the arrival and task distribution. Compared to static serving, learned best-effort serving allows for cost-efficient serving through increased hardware utility. Additionally, we argue that learned best-effort LLM serving is applicable in wide variety of settings and provides application developers great flexibility to meet their specific needs.
Abstract（参考訳）: 多くのアプリケーションは、ユーザに低レイテンシのLLMサービスを提供しなければならない。しかし、変動する要求パターンを提供するための過剰なリソースは、しばしば違法に高価である。本稿では,タスク分散とシステム負荷に基づいてサービス品質を調整するために,深層強化学習を用いたベストエフォートサービングシステムを提案する。当社のベストプラクティスシステムは、10倍以上のクライアント要求率で可用性を維持し、ピークパフォーマンス4.1倍の96%以上、ピークパフォーマンス2.3倍の98%以上を提供する。学習したルータは、到着とタスクの分配の両方のシフトに対して堅牢です。静的サービスと比較すると、学習されたベストエフォートサービスにより、ハードウェアユーティリティの増大によるコスト効率の高いサービスが可能になる。さらに、学習したベストエフォートllmは、さまざまな設定に適用でき、アプリケーション開発者に特定のニーズを満たすための柔軟性を提供します。

関連論文リスト

BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving [3.620158146761518]
BucketServeは、推論パフォーマンスを最適化するために設計されたバケットベースの動的フレームワークである。 UELLMと比較して1.93倍の要求負荷を達成でき、UELLMよりも1.975倍高いシステム負荷能力を示す。
論文参考訳（メタデータ） (2025-07-23T01:51:48Z)
Adaptive Request Scheduling for CodeLLM Serving with SLA Guarantees [6.110847503516972]
既存の大規模言語モデル(CodeMs)は、現代のソフトウェア開発にますます統合されています。しかし、セルフホスト環境は、リソース制約のあるサービス環境において重要な課題である。要求毎のSLAの実現可能性と意思決定をリアルタイムで予測する動的戦略であるSABERを提案する。以上の結果から,SLAを意識した適応スケジューリングが,堅牢で高性能なCodeLL提供の鍵となることを示す。
論文参考訳（メタデータ） (2025-06-24T14:44:33Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
iServe: An Intent-based Serving System for LLMs [0.34998703934432684]
iServeは、分散大言語モデル(LLM)推論のためのインテントベースのシステムである。手動でデプロイメント設定を選択する代わりに、開発者は単純にインテントを指定する。 iServeは最先端のシステムと比べてユーザー意図に最も合う。
論文参考訳（メタデータ） (2025-01-08T14:38:13Z)
DeServe: Towards Affordable Offline LLM Inference via Decentralization [42.8973830120059]
本稿では,大規模言語モデル(LLM)推論のための分散型オフラインサービスシステムの設計について述べる。アイドルGPUリソースを利用することで,提案システムであるDeServeは,LLMへのアクセスを低コストで分散化する。実験によると、DeServeは既存のサービスシステムのベースラインよりもスループットが6.7x-12.6倍向上している。
論文参考訳（メタデータ） (2025-01-04T02:10:50Z)
ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文参考訳（メタデータ） (2024-10-02T04:12:13Z)
An Advanced Reinforcement Learning Framework for Online Scheduling of Deferrable Workloads in Cloud Computing [37.457951933256055]
クラウド上でのdeferrableジョブのためのtextitOnline Scheduling(OSDEC)と呼ばれるオンラインのdeferrableジョブスケジューリング手法を提案する。提案手法は,高資源利用率を維持しつつ,デプロイメントスケジュールを適切に計画し,ユーザの待ち時間を短縮することができる。
論文参考訳（メタデータ） (2024-06-03T06:55:26Z)
GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment [74.40196814292426]
本稿では,新規かつ直感的なガイダンスベース知識伝達(GKT)フレームワークを提案する。 GKTは'teacher'として大きな言語モデルを使用し、ガイダンスプロンプトを生成し、より小さな'student'モデルと組み合わせて応答を確定する。 GSM8Kの最大精度は14.18%、GSM8Kの10.72倍、精度は14.00%、CSQAの7.73倍である。
論文参考訳（メタデータ） (2024-05-30T02:37:35Z)
Deep Reinforcement Learning based Online Scheduling Policy for Deep Neural Network Multi-Tenant Multi-Accelerator Systems [1.7724466261976437]
本稿では,マルチテナント環境におけるDNNのオンラインスケジューリングを目的とした低オーバーヘッド深層強化学習アルゴリズムRELMASを提案する。ヘテロジニアス多加速器システムへのRELMASの適用により、SLAの満足度は最大で173%向上した。
論文参考訳（メタデータ） (2024-04-13T10:13:07Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
SpotServe: Serving Generative Large Language Models on Preemptible Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。 SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4～9.1倍削減できることを示す。また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文参考訳（メタデータ） (2023-11-27T06:31:17Z)
Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。 SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文参考訳（メタデータ） (2023-04-21T11:19:49Z)
PROMPT: Learning Dynamic Resource Allocation Policies for Network Applications [16.812611987082082]
本稿では、プロアクティブな予測を用いて強化学習コントローラを誘導する新しいリソース割り当てフレームワークPROMPTを提案する。本稿では,PROMPTが4.2倍少ない違反を発生させ,政策違反の深刻度を12.7倍に低減し,最善を尽くした作業負荷性能を向上し,先行作業よりも全体的な電力効率を向上することを示す。
論文参考訳（メタデータ） (2022-01-19T23:34:34Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。 Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文参考訳（メタデータ） (2020-08-27T16:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。