論文の概要: The Effect of Scheduling and Preemption on the Efficiency of LLM Inference Serving
- arxiv url: http://arxiv.org/abs/2411.07447v2
- Date: Tue, 19 Nov 2024 21:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:11.643530
- Title: The Effect of Scheduling and Preemption on the Efficiency of LLM Inference Serving
- Title(参考訳): LLM推論の効率に及ぼすスケジューリングとプリエンプションの影響
- Authors: Kyoungmin Kim, Kijae Hong, Caglar Gulcehre, Anastasia Ailamaki,
- Abstract要約: INFERMAXは様々なスケジューラを比較するために推論コストモデルを使用する分析フレームワークである。
その結果,プリエンプション要求はプリエンプションを回避するよりもGPUコストを30%削減できることがわかった。
- 参考スコア(独自算出の注目度): 8.552242818726347
- License:
- Abstract: The growing usage of Large Language Models (LLMs) highlights the demands and challenges in scalable LLM inference systems, affecting deployment and development processes. On the deployment side, there is a lack of comprehensive analysis on the conditions under which a particular scheduler performs better or worse, with performance varying substantially across different schedulers, hardware, models, and workloads. Manually testing each configuration on GPUs can be prohibitively expensive. On the development side, unpredictable performance and unknown upper limits can lead to inconclusive trial-and-error processes, consuming resources on ideas that end up ineffective. To address these challenges, we introduce INFERMAX, an analytical framework that uses inference cost models to compare various schedulers, including an optimal scheduler formulated as a constraint satisfaction problem (CSP) to establish an upper bound on performance. Our framework offers in-depth analysis and raises essential questions, challenging assumptions and exploring opportunities for more efficient scheduling. Notably, our findings indicate that preempting requests can reduce GPU costs by 30% compared to avoiding preemptions at all. We believe our methods and insights will facilitate the cost-effective deployment and development of scalable, efficient inference systems and pave the way for cost-based scheduling.
- Abstract(参考訳): LLM(Large Language Models)の利用の増加は、スケーラブルなLLM推論システムの要求と課題を強調し、デプロイメントと開発プロセスに影響を与える。
デプロイメント側では、特定のスケジューラがより良く、あるいは悪化する条件に関する包括的な分析が欠如しており、パフォーマンスはさまざまなスケジューラ、ハードウェア、モデル、ワークロードで大きく異なる。
GPU上で各構成を手動でテストすることは、違法にコストがかかる。
開発側では、予測不可能なパフォーマンスと未知の上限は、決定不可能な試行錯誤プロセスを引き起こし、結果として非効率なアイデアに関するリソースを消費します。
これらの課題に対処するために,制約満足度問題 (CSP) として定式化された最適スケジューラを含む,様々なスケジューラを比較するための推論コストモデルを用いた分析フレームワークINFERMAXを導入する。
我々のフレームワークは、詳細な分析を提供し、重要な疑問を提起し、仮定に挑戦し、より効率的なスケジューリングの機会を探る。
特に,プリエンプション要求は,プリエンプションを回避することに比べ,GPUコストを30%削減できることを示す。
当社の手法と洞察は,スケーラブルで効率的な推論システムの構築と,コストベースのスケジューリングの道を開く上で,コスト効率のよい展開と開発を促進するものと信じている。
関連論文リスト
- On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning [10.704716790096498]
大規模言語モデル(LLM)は、技術やシステム設計の推進によって達成された、目覚ましいタスク解決能力を示している。
本稿では,LLMの計画能力に及ぼす微調整の影響について検討する。
計画領域におけるファインチューニングのサンプル効率を向上させるために,MDFT(Maximum Diversity Fine-Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-06-15T03:06:14Z) - Differentiable Combinatorial Scheduling at Scale [18.09256072039255]
本稿では,Gumbel-Softmax微分可能なサンプリング手法を用いて,微分可能なスケジューリングフレームワークを提案する。
スケジューリングタスクの不等式制約をエンコードするために,任意の不等式制約を積極的にエンコードするテキスト制約付きGumbel Trickを導入する。
本手法は, トレーニングデータを必要とせずに, 勾配降下による効率よく, スケーラブルなスケジューリングを容易にする。
論文 参考訳(メタデータ) (2024-06-06T02:09:39Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Can LLMs Configure Software Tools [0.76146285961466]
ソフトウェア工学では、複雑なシステム内での最適なパフォーマンスを確保するためには、ソフトウェアツールの精巧な構成が不可欠である。
本研究では,Large-Language Models (LLMs) を利用したソフトウェア構成プロセスの合理化について検討する。
本研究は,Chat-GPTなどのLCMを用いて,開始条件を特定し,検索空間を狭め,構成効率を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T05:03:02Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Planning with Dynamically Estimated Action Costs [2.8326418377665346]
実際のAI計画アプリケーションには、アクションコストに関する情報が不可欠だ。
近年のアプローチでは、データからしばしば学習されるブラックボックス外部アクションコスト推定器が計画段階で適用されている。
本稿では,行動コストを考慮した決定論的計画の一般化を提案する。
論文 参考訳(メタデータ) (2022-06-08T21:10:37Z) - Uncertainty-aware Remaining Useful Life predictor [57.74855412811814]
有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産の運用期間を推定する問題である。
本研究では,Deep Gaussian Processes (DGPs) を,前述の制限に対する解決策と捉える。
アルゴリズムの性能はNASAの航空機エンジン用N-CMAPSSデータセットで評価される。
論文 参考訳(メタデータ) (2021-04-08T08:50:44Z) - Integration of Convolutional Neural Networks in Mobile Applications [3.0280987248827085]
本稿では,Deep Learningモデルを統合するシステムの性能について,精度と複雑性のトレードオフとして検討する。
モバイルアプリケーションにDLベースのソフトウェアをデプロイする際の最も重要な課題を特定する。
論文 参考訳(メタデータ) (2021-03-11T15:27:05Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。