論文の概要: MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning
on HPC Systems
- arxiv url: http://arxiv.org/abs/2110.11466v1
- Date: Thu, 21 Oct 2021 20:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 03:32:50.596116
- Title: MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning
on HPC Systems
- Title(参考訳): MLPerfTM HPC:HPCシステムにおける科学機械学習のためのホロスティックベンチマークスイート
- Authors: Steven Farrell, Murali Emani, Jacob Balma, Lukas Drescher, Aleksandr
Drozd, Andreas Fink, Geoffrey Fox, David Kanter, Thorsten Kurth, Peter
Mattson, Dawei Mu, Amit Ruhela, Kento Sato, Koichi Shirahata, Tsuguchika
Tabaru, Aristeidis Tsaris, Jan Balewski, Ben Cumming, Takumi Danjo, Jens
Domke, Takaaki Fukai, Naoto Fukumoto, Tatsuya Fukushi, Balazs Gerofi, Takumi
Honda, Toshiyuki Imamura, Akihiko Kasagi, Kentaro Kawakami, Shuhei Kudo,
Akiyoshi Kuroda, Maxime Martinasso, Satoshi Matsuoka, Henrique Mendonc,
Kazuki Minami, Prabhat Ram, Takashi Sawada, Mallikarjun Shankar, Tom St.
John, Akihiro Tabuchi, Venkatram Vishwanath, Mohamed Wahib, Masafumi
Yamazaki, Junqi Yin
- Abstract要約: 我々はMLCommonsTM Associationが推進する科学機械学習トレーニングアプリケーションのベンチマークスイートであるHPCを紹介する。
共同分析のための体系的なフレームワークを開発し、データステージング、アルゴリズム収束、計算性能の観点から比較する。
低レベルのメモリ、I/O、ネットワークの振る舞いに関して、各ベンチマークを特徴付けることで結論付ける。
- 参考スコア(独自算出の注目度): 32.621917787044396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific communities are increasingly adopting machine learning and deep
learning models in their applications to accelerate scientific insights. High
performance computing systems are pushing the frontiers of performance with a
rich diversity of hardware resources and massive scale-out capabilities. There
is a critical need to understand fair and effective benchmarking of machine
learning applications that are representative of real-world scientific use
cases. MLPerfTM is a community-driven standard to benchmark machine learning
workloads, focusing on end-to-end performance metrics. In this paper, we
introduce MLPerf HPC, a benchmark suite of largescale scientific machine
learning training applications, driven by the MLCommonsTM Association. We
present the results from the first submission round including a diverse set of
some of the world's largest HPC systems. We develop a systematic framework for
their joint analysis and compare them in terms of data staging, algorithmic
convergence, and compute performance. As a result, we gain a quantitative
understanding of optimizations on different subsystems such as staging and
on-node loading of data, compute-unit utilization, and communication scheduling
enabling overall > 10x (end-to-end) performance improvements through system
scaling. Notably, our analysis shows a scale-dependent interplay between the
dataset size, a system's memory hierarchy, and training convergence that
underlines the importance of near compute storage. To overcome the
data-parallel scalability challenge at large batch sizes, we discuss specific
learning techniques and hybrid data-and-model parallelism that are effective on
large systems. We conclude by characterizing each benchmark with respect to
low-level memory, I/O, and network behavior to parameterize extended roofline
performance models in future rounds.
- Abstract(参考訳): 科学コミュニティは、科学的洞察を加速するために機械学習とディープラーニングモデルをその応用に採用している。
高性能コンピューティングシステムは、豊富なハードウェアリソースと大規模なスケールアウト機能によって、パフォーマンスのフロンティアを推し進めている。
現実の科学的ユースケースを代表する機械学習アプリケーションの公平で効果的なベンチマークを理解するためには、重要なニーズがある。
MLPerfTMは、マシンラーニングワークロードをベンチマークするコミュニティ主導の標準で、エンドツーエンドのパフォーマンスメトリクスに重点を置いている。
本稿では,MLCommonsTM Associationが推進する大規模科学機械学習トレーニングアプリケーションのベンチマークスイートであるMLPerf HPCを紹介する。
我々は,世界最大級のHPCシステムの多種多様なセットを含む第1回提出ラウンドの結果を提示する。
共同分析のための体系的フレームワークを開発し,データステージング,アルゴリズム収束,計算性能の観点から比較する。
その結果,データのステージングやオンノードロード,計算単位の利用,通信スケジューリングといった異なるサブシステムの最適化を定量的に理解でき,システムスケーリングによるパフォーマンス改善が10倍(エンドツーエンド)を超えていることがわかった。
特に,データセットサイズ,システムのメモリ階層,およびニアコンピューティングストレージの重要性を強調するトレーニングコンバージェンスとの間に,スケール依存の相互作用を示す。
大規模なバッチサイズでのデータ並列スケーラビリティの課題を克服するために,大規模システムに有効な特定の学習手法とハイブリッドデータ・モデル並列性について議論する。
結論として,各ベンチマークを低レベルメモリ,i/o,ネットワーク動作に特徴付け,今後の拡張ルーフライン性能モデルをパラメータ化する。
関連論文リスト
- Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference [2.2231908139555734]
本稿では,分散LLMトレーニングと推論の一般的な性能モデリング手法とワークロード解析を提案する。
文献や関連業界ベンダ(NVIDIAなど)の公開データによるパフォーマンス予測を検証する。
論文 参考訳(メタデータ) (2024-07-19T19:49:05Z) - PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。
最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。
プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Machine Learning Training on a Real Processing-in-Memory System [9.286176889576996]
機械学習アルゴリズムのトレーニングは計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内処理機能を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
我々の研究は、現実世界の汎用PIMアーキテクチャ上で機械学習アルゴリズムのトレーニングを評価する最初のものである。
論文 参考訳(メタデータ) (2022-06-13T10:20:23Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Scalable Graph Embedding LearningOn A Single GPU [18.142879223260785]
本稿では,大規模グラフの埋め込み学習の課題に対処する,ハイブリッドCPU-GPUフレームワークを提案する。
我々のシステムは、単一のマシンの総メモリ容量より桁違いに大きいデータセットにトレーニングをスケールできることを示します。
論文 参考訳(メタデータ) (2021-10-13T19:09:33Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。