論文の概要: Beyond Desktop Computation: Challenges in Scaling a GPU Infrastructure
- arxiv url: http://arxiv.org/abs/2110.05156v1
- Date: Mon, 11 Oct 2021 11:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 23:59:41.159973
- Title: Beyond Desktop Computation: Challenges in Scaling a GPU Infrastructure
- Title(参考訳): デスクトップ計算を超えて - GPUインフラストラクチャのスケールアップの課題
- Authors: Martin Uray and Eduard Hirsch and Gerold Katzinger and Michael
Gadermayr
- Abstract要約: 計算コストのかかるデータサイエンスアプリケーションを実行する企業や研究所は、遅かれ早かれ、大規模だが無接続のインフラの問題に直面している。
本稿では,オンプレミスインフラストラクチャへの意思決定プロセス,実装されたシステムアーキテクチャ,ソフトウェアスタックのスケール可能なGPUクラスタシステムへの変換について説明する。
- 参考スコア(独自算出の注目度): 0.6117371161379209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprises and labs performing computationally expensive data science
applications sooner or later face the problem of scale but unconnected
infrastructure. For this up-scaling process, an IT service provider can be
hired or in-house personnel can attempt to implement a software stack. The
first option can be quite expensive if it is just about connecting several
machines. For the latter option often experience is missing with the data
science staff in order to navigate through the software jungle. In this
technical report, we illustrate the decision process towards an on-premises
infrastructure, our implemented system architecture, and the transformation of
the software stack towards a scaleable GPU cluster system.
- Abstract(参考訳): 計算コストのかかるデータサイエンスアプリケーションを実行する企業や研究所は、遅かれ早かれ、大規模だが無接続のインフラの問題に直面している。
このスケールアッププロセスでは、ITサービスプロバイダを雇用するか、社内の担当者がソフトウェアスタックの実装を試みることができる。
最初の選択肢は、複数のマシンを接続するだけなら、かなり高価だ。
後者のオプションでは、ソフトウェアジャングルをナビゲートするために、データサイエンススタッフでの経験が欠けていることが多い。
本稿では,オンプレミスインフラストラクチャへの意思決定プロセス,実装されたシステムアーキテクチャ,ソフトウェアスタックのスケール可能なGPUクラスタシステムへの変換について説明する。
関連論文リスト
- I've Got 99 Problems But FLOPS Ain't One [70.3084616806354]
私たちは、機械学習アプリケーションのための1000億ドルのデータセンターを構築するための公開計画から始まり、関連する研究方向を見つけるために、従来からあるアプローチを取っています。
データセンターのようなワークロードが持つものを見つけ、ネットワーク研究に焦点をあてて、その課題を探求します。
我々は、データセンターの構築とそのようなモデルの訓練は技術的に可能であると結論づけるが、これはDC間通信のための新しい広域トランスポート、マルチパストランスポート、および新しいデータセンタートポロジを必要とする。
論文 参考訳(メタデータ) (2024-07-01T10:33:46Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - KGLiDS: A Platform for Semantic Abstraction, Linking, and Automation of Data Science [4.120803087965204]
本稿では、機械学習と知識グラフ技術を用いて、データサイエンスアーティファクトのセマンティクスとその接続を抽象化し、キャプチャするスケーラブルなプラットフォームKGLiDSを提案する。
この情報に基づいて、KGLiDSはデータディスカバリやパイプライン自動化など、さまざまなダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2023-03-03T20:31:04Z) - Profiling and Improving the PyTorch Dataloader for high-latency Storage:
A Technical Report [0.7349727826230862]
この作業は、PyTorch Frameworkのデータロードパイプラインに焦点を当てている。
画像などの多数のファイルのロードを伴う分類タスクでは、トレーニングウォールタイムが大幅に改善できることが示される。
新たに修正したConcurrentDataloaderを使えば、GPU使用率の改善や、バッチ読み込み時間の最大12倍の大幅な削減が可能になります。
論文 参考訳(メタデータ) (2022-11-09T14:16:30Z) - Physical Computing for Materials Acceleration Platforms [81.09376948478891]
我々は、MAPs研究プログラムの一環として、新しい素材の探索を加速する同じシミュレーションとAIツールが、根本的に新しいコンピュータ媒体の設計を可能にすると論じている。
シミュレーションに基づくMAPプログラムの概要を述べる。
我々は、材料研究者と計算機科学者の革新的なコラボレーションの新たな時代を導入することを期待している。
論文 参考訳(メタデータ) (2022-08-17T23:03:54Z) - The MIT Supercloud Workload Classification Challenge [10.458111248130944]
本稿では,MIT Supercloudデータセットに基づくワークロード分類の課題について述べる。
この課題の目標は、計算ワークロードの分析におけるアルゴリズムのイノベーションを促進することである。
論文 参考訳(メタデータ) (2022-04-12T14:28:04Z) - A Scalable Approach to Modeling on Accelerated Neuromorphic Hardware [0.0]
この研究は、物理モデリングに基づくハイブリッドアクセラレーション型ニューロモルフィックハードウェアアーキテクチャであるBrainScaleS-2システムのソフトウェア側面を示す。
本稿では,BrainScaleS-2オペレーティングシステム(実験ワークフロー,API階層化,ソフトウェア設計,プラットフォーム操作)のキーとなる側面を紹介する。
焦点は、マルチコンポーネントニューロン、ハードウェア・イン・ザ・ループトレーニングのための高速な再構成、組み込みプロセッサのアプリケーション、非スパイキング操作モード、インタラクティブなプラットフォームアクセス、持続可能なハードウェア/ソフトウェアの共同開発など、新しいシステムとソフトウェア機能である。
論文 参考訳(メタデータ) (2022-03-21T16:30:18Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - A Serverless Cloud Integration For Quantum Computing [0.0]
私たちは現在、実際の量子コンピュータで計算を実行できます。
量子ハードウェア上で直接実行できるフレームワークの使用は、一連の課題をもたらす。
この文書では、既存のエンタープライズアーキテクチャに公開されたQuantumプロバイダを統合する際の問題に対処するアーキテクチャフレームワークについて説明している。
論文 参考訳(メタデータ) (2021-07-05T13:26:43Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z) - Scalable NAS with Factorizable Architectural Parameters [102.51428615447703]
Neural Architecture Search (NAS)は、機械学習とコンピュータビジョンにおける新たなトピックである。
本稿では,多数の候補演算子をより小さな部分空間に分解することで,スケーラブルなアルゴリズムを提案する。
検索コストが少なめに増加し、再トレーニングに余分なコストがかからないため、これまで調査されなかった興味深いアーキテクチャが見つかる。
論文 参考訳(メタデータ) (2019-12-31T10:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。