論文の概要: Experience Deploying Containerized GenAI Services at an HPC Center
- arxiv url: http://arxiv.org/abs/2509.20603v1
- Date: Wed, 24 Sep 2025 22:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.613536
- Title: Experience Deploying Containerized GenAI Services at an HPC Center
- Title(参考訳): HPC Centerでコンテナ化されたGenAIサービスをデプロイした経験
- Authors: Angel M. Beltre, Jeff Ogden, Kevin Pedretti,
- Abstract要約: Generative Artificial Intelligence(GenAI)アプリケーションは、推論サーバ、オブジェクトストレージ、ベクトルおよびグラフデータベース、ユーザインターフェースなど、特殊なコンポーネントで構成されている。
コンテナ化されたGenAIワークロードを実行するHPCとプラットフォームを統合した収束コンピューティングアーキテクチャについて説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Artificial Intelligence (GenAI) applications are built from specialized components -- inference servers, object storage, vector and graph databases, and user interfaces -- interconnected via web-based APIs. While these components are often containerized and deployed in cloud environments, such capabilities are still emerging at High-Performance Computing (HPC) centers. In this paper, we share our experience deploying GenAI workloads within an established HPC center, discussing the integration of HPC and cloud computing environments. We describe our converged computing architecture that integrates HPC and Kubernetes platforms running containerized GenAI workloads, helping with reproducibility. A case study illustrates the deployment of the Llama Large Language Model (LLM) using a containerized inference server (vLLM) across both Kubernetes and HPC platforms using multiple container runtimes. Our experience highlights practical considerations and opportunities for the HPC container community, guiding future research and tool development.
- Abstract(参考訳): Generative Artificial Intelligence(GenAI)アプリケーションは、推論サーバ、オブジェクトストレージ、ベクトルおよびグラフデータベース、ユーザインターフェースなど、WebベースのAPIを介して相互接続された特殊なコンポーネントから構築されている。
これらのコンポーネントはコンテナ化され、クラウド環境にデプロイされることが多いが、ハイパフォーマンスコンピューティング(HPC)センターではまだそのような機能が登場している。
本稿では、既存のHPCセンターでGenAIワークロードをデプロイした経験を共有し、HPCとクラウドコンピューティング環境の統合について議論する。
我々は、コンテナ化されたGenAIワークロードを実行するHPCとKubernetesプラットフォームを統合し、再現性を支援する収束コンピューティングアーキテクチャについて説明する。
ケーススタディでは、コンテナ化された推論サーバ(vLLM)を使用して、複数のコンテナランタイムを使用したKubernetesとHPCプラットフォームにLlama Large Language Model(LLM)がデプロイされている。
私たちの経験は、HPCコンテナコミュニティの実践的な考慮と機会を強調し、将来の研究とツール開発を導くものです。
関連論文リスト
- A Survey on Cloud-Edge-Terminal Collaborative Intelligence in AIoT Networks [49.90474228895655]
クラウドエッジ端末協調インテリジェンス(CETCI)は、モノの人工知能(AIoT)コミュニティにおける基本的なパラダイムである。
CETCIは、分離されたレイヤ最適化からデプロイ可能なコラボレーティブインテリジェンスシステムに移行する、新興のAIoTアプリケーションで大きな進歩を遂げた。
本調査では、基礎アーキテクチャ、CETCIパラダイムのテクノロジの実現、シナリオについて解説し、CISAIOT初心者向けのチュートリアルスタイルのレビューを提供する。
論文 参考訳(メタデータ) (2025-08-26T08:38:01Z) - Hybrid Classical-Quantum Supercomputing: A demonstration of a multi-user, multi-QPU and multi-GPU environment [0.4952116874307477]
HPCセンターにおける古典量子環境の世界初の実装について述べる。
この環境のハイブリッド古典量子機械学習と最適化への応用を実証する。
論文 参考訳(メタデータ) (2025-08-22T11:01:45Z) - Scalable Runtime Architecture for Data-driven, Hybrid HPC and ML Workflow Applications [2.0999841017238063]
従来のHPCと新しいML方法論を組み合わせたハイブリッドは、科学計算を変革している。
本稿では、RADICAL-Pilotを拡張し、サービスベースの実行によりAI-out-HPCをサポートするスケーラブルランタイムシステムのアーキテクチャと実装について述べる。
予備実験の結果,本手法はアーキテクチャ上のオーバーヘッドを最小限に抑えながら,ローカルおよびリモートHPC/クラウドリソース間でMLモデルの同時実行を管理することを示す。
論文 参考訳(メタデータ) (2025-03-17T16:21:48Z) - Exascale Workflow Applications and Middleware: An ExaWorks Retrospective [3.4423220997316593]
多様な大規模プラットフォーム上で異種ソフトウェアコンポーネントをコーディネートし、デプロイするという課題に対処するExaWorksプロジェクトを紹介します。
我々はジョブ管理抽象化APIであるSoftware Development Toolkit(SDK)と、ジョブの提出と監視のための最小限のインターフェースであるPSI/Jを開発した。
当社のプロジェクトでは,ワークフローコミュニティや大規模コンピューティング施設,HPCプラットフォームベンダと連携して,エクサスケールでの要件を持続的に解決する方法について論じる。
論文 参考訳(メタデータ) (2024-11-16T00:10:53Z) - Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning [49.997801914237094]
我々は、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介する。
ディープラーニング(DL)トレーニングでは、1万のPCIe A100 GPUでFire-Flyer 2をデプロイし、DGX-A100の性能評価を達成し、コストを半分に削減し、エネルギー消費を40%削減しました。
HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。
論文 参考訳(メタデータ) (2024-08-26T10:11:56Z) - AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。
AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。
オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。
環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文 参考訳(メタデータ) (2024-03-26T17:54:15Z) - Developing an AI-enabled IIoT platform -- Lessons learned from early use
case validation [47.37985501848305]
本稿では,このプラットフォームの設計について紹介し,AIによる視覚的品質検査の実証者の観点からの早期評価について述べる。
これは、この初期の評価活動で学んだ洞察と教訓によって補完される。
論文 参考訳(メタデータ) (2022-07-10T18:51:12Z) - Composing Complex and Hybrid AI Solutions [52.00820391621739]
一般的なAIアプリケーションで上記の機能を実現するためのAcumosシステムの拡張について述べる。
当社の拡張機能には、gRPC/Protobufインターフェースによるより汎用的なコンポーネントのサポートが含まれています。
デプロイ可能なソリューションとそのインターフェースの例を提供する。
論文 参考訳(メタデータ) (2022-02-25T08:57:06Z) - Integrating Deep Learning in Domain Sciences at Exascale [2.241545093375334]
我々は,大規模HPCシステム上でディープラーニングモデルとアプリケーションを効率的に動作させるための既存パッケージの評価を行った。
本稿では,現在の大規模異種システムに対する新しい非同期並列化と最適化手法を提案する。
従来の計算集約型アプリケーションとデータ集約型アプリケーションをAIで拡張するための図表と潜在的なソリューションを提案する。
論文 参考訳(メタデータ) (2020-11-23T03:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。