論文の概要: Niyama : Breaking the Silos of LLM Inference Serving
- arxiv url: http://arxiv.org/abs/2503.22562v1
- Date: Fri, 28 Mar 2025 16:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:54.882206
- Title: Niyama : Breaking the Silos of LLM Inference Serving
- Title(参考訳): ニヤマ : LLM推論のサイロを破る
- Authors: Kanishk Goel, Jayashree Mohan, Nipun Kwatra, Ravi Shreyas Anupindi, Ramachandran Ramjee,
- Abstract要約: 共有インフラストラクチャ上での多様なワークロードの効率的なスケジューリングを可能にする,新規な推論サービスシステムであるNiyamaについて紹介する。
Niyamaは詳細な分類アプリケーションを導入し、正確なレイテンシ要件を指定し、リアルタイムシステム状態に基づいてスケジューリング決定を動的に適用する。
- 参考スコア(独自算出の注目度): 9.372311561580723
- License:
- Abstract: The widespread adoption of Large Language Models (LLMs) has enabled diverse applications with very different latency requirements. Existing LLM serving frameworks rely on siloed infrastructure with coarse-grained workload segregation -- interactive and batch -- leading to inefficient resource utilization and limited support for fine-grained Quality-of-Service (QoS) differentiation. This results in operational inefficiencies, over-provisioning and poor load management during traffic surges. We present Niyama, a novel QoS-driven inference serving system that enables efficient co-scheduling of diverse workloads on shared infrastructure. Niyama introduces fine-grained QoS classification allowing applications to specify precise latency requirements, and dynamically adapts scheduling decisions based on real-time system state. Leveraging the predictable execution characteristics of LLM inference, Niyama implements a dynamic chunking mechanism to improve overall throughput while maintaining strict QoS guarantees. Additionally, Niyama employs a hybrid prioritization policy that balances fairness and efficiency, and employs selective request relegation that enables graceful service degradation during overload conditions. Our evaluation demonstrates that Niyama increases serving capacity by 32% compared to current siloed deployments, while maintaining QoS guarantees. Notably, under extreme load, our system reduces SLO violations by an order of magnitude compared to current strategies.
- Abstract(参考訳): LLM(Large Language Models)の普及により、非常に異なるレイテンシ要件を持つ多様なアプリケーションが可能になった。
既存のLLMサービスフレームワークは、粗粒度ワークロードの分離 -- インタラクティブでバッチ -- によるサイロ化インフラストラクチャに依存しており、非効率なリソース利用と、きめ細かいQuality-of-Service(QoS)の差別化のサポートが制限されている。
この結果、運用上の非効率性、過剰な計画、トラフィック急増時の負荷管理が低下する。
本稿では,共有インフラストラクチャ上での多様なワークロードの効率的なスケジューリングを可能にする,新しいQoS駆動型推論サービスシステムであるNiyamaを紹介する。
Niyamaは詳細なQoS分類を導入し、アプリケーションが正確なレイテンシ要件を指定できるようにし、リアルタイムシステム状態に基づいてスケジューリング決定を動的に適用する。
LLM推論の予測可能な実行特性を活用して,厳格なQoS保証を維持しながら全体的なスループットを改善するための動的チャンキング機構を実装している。
さらに、ニヤマは公平性と効率のバランスをとるようなハイブリッドな優先順位付けポリシーを採用し、過負荷時に優雅なサービス劣化を可能にする選択的な要求レグレゲーションを採用している。
評価の結果,現在のサイロ化デプロイメントと比較して,ニヤマはサービス容量を32%増加させ,QoS保証を維持していることがわかった。
特に、過負荷下では、現在の戦略に比べてSLO違反を桁違いに削減する。
関連論文リスト
- HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location [3.348953136575379]
HyGenは、オンラインおよびオフラインワークロードの効率的なコロケーションを可能にする干渉対応LLMサービスシステムである。
運用負荷評価の結果,HyGenのスループットは最大3.87倍,オフラインスループットは5.84倍に向上した。
論文 参考訳(メタデータ) (2025-01-15T16:32:27Z) - SLA Management in Reconfigurable Multi-Agent RAG: A Systems Approach to Question Answering [0.0]
現実世界のアプリケーションには、SLA(Service Level Agreements)とQoS(Quality of Service)の要件が多様である。
実世界の質問応答(QA)アプリケーションに適したマルチエージェントRAGに対するシステム指向アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-07T01:32:13Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Leveraging Interpretability in the Transformer to Automate the Proactive Scaling of Cloud Resources [1.1470070927586018]
我々は、エンドツーエンドのレイテンシ、フロントエンドレベルの要求、リソース利用の関係をキャプチャするモデルを開発する。
次に、開発したモデルを使用して、エンドツーエンドのレイテンシを予測します。
マイクロサービスベースのアプリケーションのメリットを示し、デプロイメントのロードマップを提供します。
論文 参考訳(メタデータ) (2024-09-04T22:03:07Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Reconfigurable Intelligent Surface (RIS)-Assisted Entanglement
Distribution in FSO Quantum Networks [62.87033427172205]
自由空間光(FSO)量子チャネルに依存する量子ネットワーク(QN)は、光ファイバー基盤の確立が困難でコストがかかる環境における量子アプリケーションをサポートすることができる。
エンタングルメント分布のための仮想視線を提供する費用効率の高いフレームワークとして,再構成可能なインテリジェントサーフェス(RIS)を用いたFSOベースのQNを提案する。
論文 参考訳(メタデータ) (2024-01-19T17:16:40Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - PROMPT: Learning Dynamic Resource Allocation Policies for Network
Applications [16.812611987082082]
本稿では、プロアクティブな予測を用いて強化学習コントローラを誘導する新しいリソース割り当てフレームワークPROMPTを提案する。
本稿では,PROMPTが4.2倍少ない違反を発生させ,政策違反の深刻度を12.7倍に低減し,最善を尽くした作業負荷性能を向上し,先行作業よりも全体的な電力効率を向上することを示す。
論文 参考訳(メタデータ) (2022-01-19T23:34:34Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Queue-Learning: A Reinforcement Learning Approach for Providing Quality
of Service [1.8477401359673706]
servicerate controlは、サービスシステムにおける保証を提供する共通のメカニズムである。
本稿では,強化学習ベース(rlベース)サービスレートコントローラを提案する。
当社のコントローラは、システムのエンドツーエンドの遅延に関する明示的な確率的保証を提供します。
論文 参考訳(メタデータ) (2021-01-12T17:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。