論文の概要: The Effect of Scheduling and Preemption on the Efficiency of LLM Inference Serving
- arxiv url: http://arxiv.org/abs/2411.07447v2
- Date: Tue, 19 Nov 2024 21:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:11.643530
- Title: The Effect of Scheduling and Preemption on the Efficiency of LLM Inference Serving
- Title(参考訳): LLM推論の効率に及ぼすスケジューリングとプリエンプションの影響
- Authors: Kyoungmin Kim, Kijae Hong, Caglar Gulcehre, Anastasia Ailamaki,
- Abstract要約: INFERMAXは様々なスケジューラを比較するために推論コストモデルを使用する分析フレームワークである。
その結果,プリエンプション要求はプリエンプションを回避するよりもGPUコストを30%削減できることがわかった。
- 参考スコア(独自算出の注目度): 8.552242818726347
- License:
- Abstract: The growing usage of Large Language Models (LLMs) highlights the demands and challenges in scalable LLM inference systems, affecting deployment and development processes. On the deployment side, there is a lack of comprehensive analysis on the conditions under which a particular scheduler performs better or worse, with performance varying substantially across different schedulers, hardware, models, and workloads. Manually testing each configuration on GPUs can be prohibitively expensive. On the development side, unpredictable performance and unknown upper limits can lead to inconclusive trial-and-error processes, consuming resources on ideas that end up ineffective. To address these challenges, we introduce INFERMAX, an analytical framework that uses inference cost models to compare various schedulers, including an optimal scheduler formulated as a constraint satisfaction problem (CSP) to establish an upper bound on performance. Our framework offers in-depth analysis and raises essential questions, challenging assumptions and exploring opportunities for more efficient scheduling. Notably, our findings indicate that preempting requests can reduce GPU costs by 30% compared to avoiding preemptions at all. We believe our methods and insights will facilitate the cost-effective deployment and development of scalable, efficient inference systems and pave the way for cost-based scheduling.
- Abstract(参考訳): LLM(Large Language Models)の利用の増加は、スケーラブルなLLM推論システムの要求と課題を強調し、デプロイメントと開発プロセスに影響を与える。
デプロイメント側では、特定のスケジューラがより良く、あるいは悪化する条件に関する包括的な分析が欠如しており、パフォーマンスはさまざまなスケジューラ、ハードウェア、モデル、ワークロードで大きく異なる。
GPU上で各構成を手動でテストすることは、違法にコストがかかる。
開発側では、予測不可能なパフォーマンスと未知の上限は、決定不可能な試行錯誤プロセスを引き起こし、結果として非効率なアイデアに関するリソースを消費します。
これらの課題に対処するために,制約満足度問題 (CSP) として定式化された最適スケジューラを含む,様々なスケジューラを比較するための推論コストモデルを用いた分析フレームワークINFERMAXを導入する。
我々のフレームワークは、詳細な分析を提供し、重要な疑問を提起し、仮定に挑戦し、より効率的なスケジューリングの機会を探る。
特に,プリエンプション要求は,プリエンプションを回避することに比べ,GPUコストを30%削減できることを示す。
当社の手法と洞察は,スケーラブルで効率的な推論システムの構築と,コストベースのスケジューリングの道を開く上で,コスト効率のよい展開と開発を促進するものと信じている。
関連論文リスト
- Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights [49.42133807824413]
本稿では,大規模言語モデル(LLM)の複雑な課題解決における推論と計画能力について検討する。
近年の推論時間技術の発展は,LLM推論を追加訓練なしで向上させる可能性を示している。
OpenAIのo1モデルは、マルチステップ推論と検証の新たな使用を通じて、有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-18T04:11:29Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - PEA: Enhancing LLM Performance on Computational-Reasoning Tasks [21.13926189404758]
本研究では、計算推論問題と呼ばれる重要な推論タスクのクラスを記述し、解決するための形式的なアプローチを紹介する。
このフレームワークはこれらの問題を述語と列挙の構成要素に分解し、LLMを使って特定の述語、列挙、集約ルールに基づいてプログラムを合成する。
実験的な評価により、PEAはベンチマーク計算問題における基礎となるモデルの性能を大幅に向上し、平均精度が約50%向上し、効率が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-16T00:27:05Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
CITERはトークンレベルのルーティング戦略を通じて、小規模および大規模言語モデル(SLMs & LLMs)間の効率的な協調を可能にする。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Efficiently Serving LLM Reasoning Programs with Certaindex [4.681117143870077]
Dynasorは、大規模言語モデル(LLM)の推論時間計算を最適化するシステムである。
従来のエンジンとは異なり、Dynasorは推論クエリ内で要求を追跡し、スケジュールする。
バッチ処理で最大50%削減され、クエリレートが3.3倍、オンラインサービスで4.7倍のレイテンシSLOが持続する。
論文 参考訳(メタデータ) (2024-12-30T14:57:53Z) - Leveraging Graph-RAG and Prompt Engineering to Enhance LLM-Based Automated Requirement Traceability and Compliance Checks [8.354305051472735]
本研究は,頑健なグラフ-RAGフレームワークを,思考の連鎖や思考の樹木といった先進的な技術と統合することにより,性能を著しく向上させることを実証する。
さまざまなコンテキストにまたがって実装するのはコストが高く、複雑で、特定のシナリオに慎重に適応する必要がある。
論文 参考訳(メタデータ) (2024-12-11T18:11:39Z) - GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。
これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。
バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-06T05:46:43Z) - Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning [10.704716790096498]
大規模言語モデル(LLM)は、技術やシステム設計の推進によって達成された、目覚ましいタスク解決能力を示している。
本稿では,LLMの計画能力に及ぼす微調整の影響について検討する。
計画領域におけるファインチューニングのサンプル効率を向上させるために,MDFT(Maximum Diversity Fine-Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-06-15T03:06:14Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Uncertainty-aware Remaining Useful Life predictor [57.74855412811814]
有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産の運用期間を推定する問題である。
本研究では,Deep Gaussian Processes (DGPs) を,前述の制限に対する解決策と捉える。
アルゴリズムの性能はNASAの航空機エンジン用N-CMAPSSデータセットで評価される。
論文 参考訳(メタデータ) (2021-04-08T08:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。