論文の概要: Automated Dynamic AI Inference Scaling on HPC-Infrastructure: Integrating Kubernetes, Slurm and vLLM
- arxiv url: http://arxiv.org/abs/2511.21413v1
- Date: Wed, 26 Nov 2025 14:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.128737
- Title: Automated Dynamic AI Inference Scaling on HPC-Infrastructure: Integrating Kubernetes, Slurm and vLLM
- Title(参考訳): HPC-Infrastructureによる自動動的AI推論スケーリング - Kubernetes、Slurm、vLLMの統合
- Authors: Tim Trappen, Robert Keßler, Roland Pabel, Viktor Achter, Stefan Wesner,
- Abstract要約: 本稿では,vLLM,Slurm,およびスーパーコンピュータのtextitRAMSESを統合してLLMを実現するソリューションを提案する。
提案したアーキテクチャは,100,500,1000の同時リクエストを効率的にスケールアップする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Due to rising demands for Artificial Inteligence (AI) inference, especially in higher education, novel solutions utilising existing infrastructure are emerging. The utilisation of High-Performance Computing (HPC) has become a prevalent approach for the implementation of such solutions. However, the classical operating model of HPC does not adapt well to the requirements of synchronous, user-facing dynamic AI application workloads. In this paper, we propose our solution that serves LLMs by integrating vLLM, Slurm and Kubernetes on the supercomputer \textit{RAMSES}. The initial benchmark indicates that the proposed architecture scales efficiently for 100, 500 and 1000 concurrent requests, incurring only an overhead of approximately 500 ms in terms of end-to-end latency.
- Abstract(参考訳): 人工知能(AI)推論の需要が高まり、特に高等教育において、既存のインフラを利用する新しいソリューションが出現している。
HPC(High-Performance Computing)の利用は、そのようなソリューションの実装において一般的なアプローチとなっている。
しかし、HPCの古典的なオペレーティングモデルは、同期的でユーザ対応の動的AIアプリケーションワークロードの要件にうまく適合しない。
本稿では,スーパーコンピュータであるtextit{RAMSES} に vLLM,Slurm,Kubernetes を統合することで LLM を実現するソリューションを提案する。
最初のベンチマークでは、提案されたアーキテクチャは100、500、1000の同時リクエストに対して効率よくスケールし、エンドツーエンドのレイテンシではオーバーヘッドは500ミリ秒程度に過ぎなかった。
関連論文リスト
- Accelerating Local AI on Consumer GPUs: A Hardware-Aware Dynamic Strategy for YOLOv10s [0.0]
アーキテクチャ変更を必要としないモデル非依存のアプローチであるTwo-Pass Adaptive Inferenceアルゴリズムを導入する。
5000イメージのCOCOデータセット上では、PyTorch Early-Exitベースラインの1.85倍の高速化を実現し、mAP損失は5.51%である。
論文 参考訳(メタデータ) (2025-09-09T17:13:31Z) - Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Towards Single-System Illusion in Software-Defined Vehicles -- Automated, AI-Powered Workflow [3.2821049498759094]
本稿では,車載ソフトウェアシステムの開発における,新しいモデルと特徴に基づくアプローチを提案する。
提案されたアプローチの重要なポイントの1つは、近代的な生成AI、特にLarge Language Models(LLM)の導入である。
その結果、パイプラインは広範囲に自動化され、各ステップでフィードバックが生成される。
論文 参考訳(メタデータ) (2024-03-21T15:07:57Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - QoS-SLA-Aware Artificial Intelligence Adaptive Genetic Algorithm for
Multi-Request Offloading in Integrated Edge-Cloud Computing System for the
Internet of Vehicles [14.978000952939404]
IoT of Vehicles (IoV) over Vehicular Ad-hoc Networks (VANETS) は、スマートシティアプリケーションの開発を可能にする新興技術である。
車両の計算能力とストレージ能力の制限を考えると、アプリケーション要求は統合されたエッジクラウドコンピューティングシステムにオフロードされる。
本稿では、異種エッジクラウドコンピューティングシステムにおけるマルチリクエストオフロードのための新しいAI(AI)デッドラインSLA対応遺伝的アルゴリズム(GA)を提案する。
論文 参考訳(メタデータ) (2022-01-21T10:11:55Z) - AIPerf: Automated machine learning as an AI-HPC benchmark [17.57686674304368]
自動機械学習(AutoML)を利用したエンドツーエンドベンチマークスイートを提案する。
アルゴリズムを並列かつ柔軟な方法で実装し、多様なシステムにおける効率性と最適化の可能性を保証する。
フレキシブルなワークロードと単一のメトリックによって、私たちのベンチマークはAI-HPCのスケールとランク付けが容易になります。
論文 参考訳(メタデータ) (2020-08-17T08:06:43Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。