論文の概要: JUWELS Booster -- A Supercomputer for Large-Scale AI Research
- arxiv url: http://arxiv.org/abs/2108.11976v1
- Date: Wed, 30 Jun 2021 21:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 07:35:53.548074
- Title: JUWELS Booster -- A Supercomputer for Large-Scale AI Research
- Title(参考訳): JUWELS Booster - 大規模AI研究のためのスーパーコンピュータ
- Authors: Stefan Kesselheim, Andreas Herten, Kai Krajsek, Jan Ebert, Jenia
Jitsev, Mehdi Cherti, Michael Langguth, Bing Gong, Scarlet Stadtler,
Amirpasha Mozaffari, Gabriele Cavallaro, Rocco Sedona, Alexander Schug,
Alexandre Strube, Roshni Kamath, Martin G. Schultz, Morris Riedel, Thomas
Lippert
- Abstract要約: 本稿では、最近J'ulich Supercomputing Centerに委託された高性能コンピューティングシステムであるJUWELS Boosterを紹介する。
システムアーキテクチャ、並列性、分散モデルトレーニング、その優れたパフォーマンスを示すベンチマークについて詳述する。
- 参考スコア(独自算出の注目度): 79.02246047353273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article, we present JUWELS Booster, a recently commissioned
high-performance computing system at the J\"ulich Supercomputing Center. With
its system architecture, most importantly its large number of powerful Graphics
Processing Units (GPUs) and its fast interconnect via InfiniBand, it is an
ideal machine for large-scale Artificial Intelligence (AI) research and
applications. We detail its system architecture, parallel, distributed model
training, and benchmarks indicating its outstanding performance. We exemplify
its potential for research application by presenting large-scale AI research
highlights from various scientific fields that require such a facility.
- Abstract(参考訳): 本稿では,最近J\'ulich Supercomputing Centerに委託された高性能コンピューティングシステムであるJUWELS Boosterを紹介する。
システムアーキテクチャ、特に重要なのは、多数の強力なグラフィックス処理ユニット(GPU)とInfiniBandによる高速な相互接続によって、大規模な人工知能(AI)の研究と応用に理想的なマシンとなる。
システムアーキテクチャ、並列分散モデルトレーニング、その優れたパフォーマンスを示すベンチマークについて詳述する。
このような施設を必要とする様々な科学分野から大規模なAI研究ハイライトを提示することで、研究応用の可能性を示す。
関連論文リスト
- Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research [90.91438597133211]
我々は、強化学習の適用において重要なシステムのボトルネックを克服するために設計されたフレームワークであるWarpSciを紹介する。
我々は、CPUとGPU間のデータ転送の必要性を排除し、数千のシミュレーションを同時実行可能にする。
論文 参考訳(メタデータ) (2024-08-01T21:38:09Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - DEAP: Design Space Exploration for DNN Accelerator Parallelism [0.0]
大規模言語モデル(LLM)はますます複雑で、訓練やサービスにも強力になっています。
本稿では、ハードウェアとソフトウェアの共同設計がどのように連携し、カスタマイズされたハードウェアシステムを構築するかを示す。
論文 参考訳(メタデータ) (2023-12-24T02:43:01Z) - Fast GraspNeXt: A Fast Self-Attention Neural Network Architecture for
Multi-task Learning in Computer Vision Tasks for Robotic Grasping on the Edge [80.88063189896718]
アーキテクチャと計算の複雑さが高いと、組み込みデバイスへのデプロイに適さない。
Fast GraspNeXtは、ロボットグルーピングのためのコンピュータビジョンタスクに埋め込まれたマルチタスク学習に適した、高速な自己認識型ニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2023-04-21T18:07:14Z) - Generative Adversarial Super-Resolution at the Edge with Knowledge
Distillation [1.3764085113103222]
シングルイメージのスーパーソリューションは、信頼できるビジュアルストリームが必要な環境でのロボットタスクをサポートすることができる。
我々は,EdgeSRGANと呼ばれるリアルタイム超解法のための効率的な生成逆ネットワークモデルを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:58:41Z) - ISyNet: Convolutional Neural Networks design for AI accelerator [0.0]
現在の最先端アーキテクチャは、モデル複雑さを考慮して、ニューラルアーキテクチャサーチ(NAS)によって発見されている。
本稿では,ニューラルネットワーク探索空間のハードウェア効率の指標として,行列効率測定(MEM),ハードウェア効率の高い演算からなる探索空間,レイテンシを考慮したスケーリング手法を提案する。
我々は、ImageNet上のNPUデバイスの設計アーキテクチャと、下流の分類および検出タスクの一般化能力の利点を示す。
論文 参考訳(メタデータ) (2021-09-04T20:57:05Z) - Semantic Scene Segmentation for Robotics Applications [51.66271681532262]
様々な設定の下で,最も成功したセマンティックシーンセグメンテーションモデルの動作を,展開(推論)速度の観点から検討する。
この研究の目的は、ロボット工学の応用要件に最も適合しているものを選択するために、現在の最先端セグメンテーションモデルの比較研究を提供することである。
論文 参考訳(メタデータ) (2021-08-25T08:55:20Z) - How to Reach Real-Time AI on Consumer Devices? Solutions for
Programmable and Custom Architectures [7.085772863979686]
ディープニューラルネットワーク(DNN)は、オブジェクトや音声認識など、さまざまな人工知能(AI)推論タスクにおいて大きな進歩をもたらした。
このようなAIモデルをコモディティデバイスにデプロイすることは、大きな課題に直面している。
クロススタック手法によりリアルタイムな性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T11:23:12Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。