論文の概要: Efficient Serving of LLM Applications with Probabilistic Demand Modeling
- arxiv url: http://arxiv.org/abs/2506.14851v1
- Date: Tue, 17 Jun 2025 03:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.429031
- Title: Efficient Serving of LLM Applications with Probabilistic Demand Modeling
- Title(参考訳): 確率的需要モデリングによるLLMアプリケーションの効率的な実行
- Authors: Yifei Liu, Zuo Gan, Zhenghao Gan, Weiye Wang, Chen Chen, Yizhou Shan, Xusheng Chen, Zhenhua Han, Yifei Zhu, Shixuan Sun, Minyi Guo,
- Abstract要約: 既存のサービスシステムは、LCMアプリケーションのリソース要求をブラックボックスとして扱い、エンドツーエンドの効率を損なう。
確率的デマンドグラフ (PDGraph) を用いて, LLM アプリケーションのリソース要求を汎用的かつ正確な方法でモデル化できることが判明した。
LLMアプリケーションの効率的な提供にPDGraphを利用するHermesを提案する。
- 参考スコア(独自算出の注目度): 21.19373615130769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applications based on Large Language Models (LLMs) contains a series of tasks to address real-world problems with boosted capability, which have dynamic demand volumes on diverse backends. Existing serving systems treat the resource demands of LLM applications as a blackbox, compromising end-to-end efficiency due to improper queuing order and backend warm up latency. We find that the resource demands of LLM applications can be modeled in a general and accurate manner with Probabilistic Demand Graph (PDGraph). We then propose Hermes, which leverages PDGraph for efficient serving of LLM applications. Confronting probabilistic demand description, Hermes applies the Gittins policy to determine the scheduling order that can minimize the average application completion time. It also uses the PDGraph model to help prewarm cold backends at proper moments. Experiments with diverse LLM applications confirm that Hermes can effectively improve the application serving efficiency, reducing the average completion time by over 70% and the P95 completion time by over 80%.
- Abstract(参考訳): LLM(Large Language Models)に基づくアプリケーションには,さまざまなバックエンドに対する動的要求量を持つ拡張能力を備えた実世界の問題に対処する一連のタスクが含まれている。
既存のサービスシステムは、LCMアプリケーションのリソース要求をブラックボックスとして扱い、不適切なキュー順序とバックエンドのウォームアップ遅延によってエンドツーエンドの効率を損なう。
LLMアプリケーションのリソース要求は、確率的デマンドグラフ(PDGraph)を用いて、汎用的かつ正確な方法でモデル化できる。
LLMアプリケーションの効率的な提供にPDGraphを利用するHermesを提案する。
確率的需要記述に先立ち、Hermes氏はGittinsポリシーを適用して、平均的なアプリケーション完了時間を最小化できるスケジューリング順序を決定する。
また、PDGraphモデルを使用して、適切なタイミングでコールドバックエンドをプリワームする。
多様なLLMアプリケーションによる実験により、Hermesはアプリケーションの機能効率を効果的に改善し、平均完了時間を70%以上、P95完了時間を80%以上削減できることを確認した。
関連論文リスト
- Improving the End-to-End Efficiency of Offline Inference for Multi-LLM Applications Based on Sampling and Simulation [23.318601470116498]
単一ノードマルチGPU環境におけるマルチLLMアプリケーションのオフラインエンドツーエンド推論効率を改善することを目的としている。
そこで本研究では,モデル実行時間を推定するためのサンプリング-then-simulation法を提案する。
3つのアプリケーションと混在アプリケーションの実験は、SamuLLMが1.0-2.4$times$ end-to-endのスピードアップを達成できることを示している。
論文 参考訳(メタデータ) (2025-03-21T06:56:35Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - Fast Inference for Augmented Large Language Models [14.195265302357148]
Augmented Large Language Models (LLM)は、APIコールを通じて外部データソースを統合することで、スタンドアロンのLLMの機能を強化する。
SJF(Shortest Job First)のような従来のサイズベースのスケジューリングアルゴリズムは、完了時間の最小化にはあまり効果がない。
拡張LLMのための新しいLLM推論フレームワークであるLAMPSを提案する。
論文 参考訳(メタデータ) (2024-10-23T19:53:30Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Queue management for slo-oriented large language model serving [3.0134961904579094]
大規模言語モデル(LLM)サービスのためのキュー管理システムであるQLMを提案する。
QLMは、異なるモデルとSLOをまたいだバッチおよびインタラクティブなリクエストをリクエストキューで維持する。
リクエスト待ち時間(RWT)推定器を使用し、リクエストキューでのリクエスト待ち時間を推定する。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。
ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。
ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文 参考訳(メタデータ) (2023-02-07T18:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。