Fugu-MT 論文翻訳(概要): Chat AI: A Seamless Slurm-Native Solution for HPC-Based Services

論文の概要: Chat AI: A Seamless Slurm-Native Solution for HPC-Based Services

arxiv url: http://arxiv.org/abs/2407.00110v1
Date: Thu, 27 Jun 2024 12:08:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 06:30:11.861339
Title: Chat AI: A Seamless Slurm-Native Solution for HPC-Based Services
Title（参考訳）: Chat AI: HPCベースのサービスのためのシームレススラムネイティブソリューション
Authors: Ali Doosthosseini, Jonathan Decker, Hendrik Nolte, Julian M. Kunkel,
Abstract要約: 大規模言語モデル(LLM)は、研究者がオープンソースまたはカスタムの微調整 LLM を実行し、ユーザが自分のデータがプライベートであり、同意なしに保存されないことを保証します。我々は,HPCシステム上で多数のAIモデルを実行するスケーラブルなバックエンドにセキュアにアクセス可能な,クラウドVM上で動作するWebサービスによる実装を提案する。 HPCシステムのセキュリティを確保するため、我々はSSH ForceCommandディレクティブを使用してロバストなサーキットブレーカーを構築する。
参考スコア（独自算出の注目度）: 0.3124884279860061
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing adoption of large language models (LLMs) has created a pressing need for an efficient, secure and private serving infrastructure, which allows researchers to run open-source or custom fine-tuned LLMs and ensures users that their data remains private and is not stored without their consent. While high-performance computing (HPC) systems equipped with state-of-the-art GPUs are well-suited for training LLMs, their batch scheduling paradigm is not designed to support real-time serving of AI applications. Cloud systems, on the other hand, are well suited for web services but commonly lack access to the computational power of clusters, especially expensive and scarce high-end GPUs, which are required for optimal inference speed. We propose an architecture with an implementation consisting of a web service that runs on a cloud VM with secure access to a scalable backend running a multitude of AI models on HPC systems. By offering a web service using our HPC infrastructure to host LLMs, we leverage the trusted environment of local universities and research centers to offer a private and secure alternative to commercial LLM services. Our solution natively integrates with Slurm, enabling seamless deployment on HPC clusters and is able to run side by side with regular Slurm workloads, while utilizing gaps in the schedule created by Slurm. In order to ensure the security of the HPC system, we use the SSH ForceCommand directive to construct a robust circuit breaker, which prevents successful attacks on the web-facing server from affecting the cluster. We have successfully deployed our system as a production service, and made the source code available at https://github.com/gwdg/chat-ai
Abstract（参考訳）: 大規模言語モデル(LLM)の採用が増加し、効率的でセキュアでプライベートなサービスインフラストラクチャの必要性が高まっている。最先端GPUを備えた高性能コンピューティング(HPC)システムは、LLMのトレーニングに適しているが、彼らのバッチスケジューリングパラダイムは、AIアプリケーションのリアルタイム配信をサポートするように設計されていない。一方、クラウドシステムはWebサービスには適しているが、一般的にクラスタの計算能力、特に最適な推論速度に必要な、高価で少ないハイエンドGPUにアクセスできない。我々は,HPCシステム上で多数のAIモデルを実行するスケーラブルなバックエンドにセキュアにアクセス可能な,クラウドVM上で動作するWebサービスによる実装を備えたアーキテクチャを提案する。 LLMをホストするHPCインフラを使用したWebサービスを提供することで、地域の大学や研究センターの信頼された環境を活用し、商用LLMサービスに代わるプライベートでセキュアな代替手段を提供する。我々のソリューションはSlurmとネイティブに統合されており、HPCクラスタへのシームレスなデプロイを可能にし、通常のSlurmワークロードと並行して実行できると同時に、Slurmが生成するスケジュールのギャップを活用しています。 HPCシステムのセキュリティを確保するため、SSH ForceCommandディレクティブを用いてロバストなサーキットブレーカーを構築する。プロダクションサービスとしてシステムをデプロイし、ソースコードをhttps://github.com/gwdg/chat-aiで公開しました。

関連論文リスト

Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文参考訳（メタデータ） (2025-06-30T02:56:11Z)
ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
LLM as HPC Expert: Extending RAG Architecture for HPC Data [0.058520770038704165]
本稿では、検索補助生成(RAG)を拡張する新しい手法である仮説コマンド埋め込み(HyCE)を紹介する。 HyCEは、大規模言語モデル(LLM)をリアルタイムなユーザ固有のHPC情報で強化し、そのようなデータに対する微調整モデルの制限に対処する。我々は、データプライバシやコマンド実行リスクなど、重要なセキュリティ上の問題に対処し、HPC環境にLLMをデプロイする。
論文参考訳（メタデータ） (2024-12-09T02:55:30Z)
Lightweight, Secure and Stateful Serverless Computing with PSL [43.025002382616066]
信頼された実行環境(TEE)のためのF-as-a-Serivce(F)フレームワークを提案する。このフレームワークは、静的にコンパイルされたバイナリおよび/またはWebAssembly(WASM)バイトコードのための異種TEEハードウェアでリッチなプログラミング言語をサポートする。 Intel SGX2の動的メモリマッピング機能を利用することで、ネイティブに近い実行速度を実現する。
論文参考訳（メタデータ） (2024-10-25T23:17:56Z)
Safely Learning with Private Data: A Federated Learning Framework for Large Language Model [3.1077263218029105]
フェデレートラーニング(FL)は、分散プライベートデータを用いたモデルのトレーニングに理想的なソリューションである。 FedAvgのような従来のフレームワークは、大きな言語モデル(LLM)には適さない本稿では,サーバサイド攻撃とピアクライアント攻撃の両方によるデータ漏洩を防止するFL-GLMを提案する。
論文参考訳（メタデータ） (2024-06-21T06:43:15Z)
FSD-Inference: Fully Serverless Distributed Inference with Scalable Cloud Communication [2.1301190271783317]
FSD-Inferenceは、分散ML推論のための、初めて完全にサーバレスで高度にスケーラブルなシステムである。我々は、クラウドベースのパブリッシュ/サブスクライブ/キューとオブジェクトストレージの両方を活用する、ML推論ワークロードのための、新しい完全なサーバレス通信スキームを紹介します。
論文参考訳（メタデータ） (2024-03-22T13:31:24Z)
HasTEE+ : Confidential Cloud Computing and Analytics with Haskell [50.994023665559496]
信頼性コンピューティングは、Trusted Execution Environments(TEEs)と呼ばれる特別なハードウェア隔離ユニットを使用して、コテナントクラウドデプロイメントにおける機密コードとデータの保護を可能にする。低レベルのC/C++ベースのツールチェーンを提供するTEEは、固有のメモリ安全性の脆弱性の影響を受けやすく、明示的で暗黙的な情報フローのリークを監視するための言語構造が欠如している。私たちは、Haskellに埋め込まれたドメイン固有言語(cla)であるHasTEE+を使って、上記の問題に対処します。
論文参考訳（メタデータ） (2024-01-17T00:56:23Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
Putting a Padlock on Lambda -- Integrating vTPMs into AWS Firecracker [49.1574468325115]
ソフトウェアサービスは、明確な信頼関係なしに、クラウドプロバイダに対して暗黙の信頼を置いている。現在、Trusted Platform Module機能を公開するクラウドプロバイダは存在しない。仮想TPMデバイスをAmazon Web Servicesによって開発されたFirecrackerに統合することで信頼性を向上させる。
論文参考訳（メタデータ） (2023-10-05T13:13:55Z)
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文参考訳（メタデータ） (2023-10-04T20:27:20Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
MLProxy: SLA-Aware Reverse Proxy for Machine Learning Inference Serving on Serverless Computing Platforms [5.089110111757978]
クラウド上で機械学習の推論ワークロードを実行することは、運用レベルではまだ難しい作業です。近年,ほとんどのインフラストラクチャ管理タスクを自動化するために,サーバレスコンピューティングが登場している。本稿では、サーバレスコンピューティングシステム上で効率的な機械学習サービスワークロードをサポートするリバースプロキシであるML Proxyを紹介する。
論文参考訳（メタデータ） (2022-02-23T00:27:49Z)
Secure Platform for Processing Sensitive Data on Shared HPC Systems [0.0]
高性能コンピューティングクラスタは、機密データを処理するための課題を提起する。本研究では,従来のマルチテナント高速コンピューティングクラスタ上でセキュアな計算環境を構築するための新しい手法を提案する。
論文参考訳（メタデータ） (2021-03-26T18:30:33Z)
A Privacy-Preserving Distributed Architecture for Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文参考訳（メタデータ） (2020-03-30T15:12:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。