論文の概要: Revisiting SLO and Goodput Metrics in LLM Serving
- arxiv url: http://arxiv.org/abs/2410.14257v1
- Date: Fri, 18 Oct 2024 08:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:29.992637
- Title: Revisiting SLO and Goodput Metrics in LLM Serving
- Title(参考訳): LLMにおけるSLOとグッドプットメトリクスの再検討
- Authors: Zhibin Wang, Shipeng Li, Yuhang Zhou, Xue Li, Rong Gu, Nguyen Cam-Tu, Chen Tian, Sheng Zhong,
- Abstract要約: サービスレベル目標(SLO)と出力-LLMサービスの性能を評価するために、1秒あたりのSLOを満たす要求数を導入します。
既存のメトリクスは、ユーザーエクスペリエンスの性質を捉えていない。
本稿では,ユーザエクスペリエンスの性質を反映したSLOとグッドプットを含む,統一されたメトリクスフレームワークスムーズなグッドプットを提案する。
- 参考スコア(独自算出の注目度): 17.777554083636716
- License:
- Abstract: Large language models (LLMs) have achieved remarkable performance and are widely deployed in various applications, while the serving of LLM inference has raised concerns about user experience and serving throughput. Accordingly, service level objectives (SLOs) and goodput-the number of requests that meet SLOs per second-are introduced to evaluate the performance of LLM serving. However, existing metrics fail to capture the nature of user experience. We observe two ridiculous phenomena in existing metrics: 1) delaying token delivery can smooth the tail time between tokens (tail TBT) of a request and 2) dropping the request that fails to meet the SLOs midway can improve goodput. In this paper, we revisit SLO and goodput metrics in LLM serving and propose a unified metric framework smooth goodput including SLOs and goodput to reflect the nature of user experience in LLM serving. The framework can adapt to specific goals of different tasks by setting parameters. We re-evaluate the performance of different LLM serving systems under multiple workloads based on this unified framework and provide possible directions for future optimization of existing strategies. We hope that this framework can provide a unified standard for evaluating LLM serving and foster researches in the field of LLM serving optimization to move in a cohesive direction.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましいパフォーマンスを達成し、様々なアプリケーションに広くデプロイされている。
したがって、LCMサービスの性能を評価するために、サービスレベル目標(SLO)と出力(秒間SLOを満たす要求数)を導入します。
しかし、既存のメトリクスはユーザーエクスペリエンスの性質を捉えていない。
既存のメトリクスで2つのばかげた現象を観察します。
1) トークン配信の遅延は,要求のトークン(テールTBT)間のテールタイムを円滑にすることができる。
2) 中間のSLOを満たさない要求を破棄すると、良い結果が得られます。
本稿では,LSMサービスにおけるSLOと良質な指標を再検討し,LSMサービスにおけるユーザエクスペリエンスの性質を反映したSLOと良質な良質さを含む統一された計量フレームワークを提案する。
フレームワークはパラメータを設定することで、異なるタスクの特定の目標に適応することができる。
我々は、この統合されたフレームワークに基づいて、複数のワークロード下で異なるLLMサービスシステムの性能を再評価し、既存の戦略を将来最適化するための方向性を提供する。
我々は,このフレームワークがLLM機能評価のための統一標準を提供し,LLM機能最適化の分野における研究の育成を可能にすることを願っている。
関連論文リスト
- A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Plug-and-Play Performance Estimation for LLM Services without Relying on Labeled Data [8.360964737763657]
大規模言語モデル(LLM)サービスは、インコンテキスト学習(ICL)による少数の例を活用した、未学習のタスクに印象的な能力を示す。
本稿では,異なるタスクやコンテキストにまたがるLLMサービスの性能を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T09:15:14Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency [20.33467627548677]
大規模言語モデル(LLM)は人気が高まり、商用アプリケーションで広く使われている。
LLMサービスシステムにおいて、エンドツーエンドのレイテンシに影響を及ぼす大きなボトルネックを特定するために、詳細な分析を行う。
次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。
論文 参考訳(メタデータ) (2024-07-23T23:37:29Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - A Practice-Friendly LLM-Enhanced Paradigm with Preference Parsing for Sequential Recommendation [15.153844486572932]
本稿では、シーケンシャルレコメンデータシステム(SRS)のための優先構文解析(P2Rec)を用いた実践的LLM拡張パラダイムを提案する。
具体的には、情報再構成段階において、事前学習したSRSモデルの助けを借りて、協調的な情報注入のための新しいユーザレベルSFTタスクを設計する。
我々のゴールは、LLMが各ユーザのインタラクションシーケンスから対応する優先度分布を再構築することを学ばせることである。
論文 参考訳(メタデータ) (2024-06-01T07:18:56Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - RouterBench: A Benchmark for Multi-LLM Routing System [25.515453832224804]
パフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適に対処できるモデルは存在しない。
この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。
本稿では LLM ルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである RouterBench を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:59:04Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。