論文の概要: High Throughput Training of Deep Surrogates from Large Ensemble Runs
- arxiv url: http://arxiv.org/abs/2309.16743v1
- Date: Thu, 28 Sep 2023 09:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 16:58:24.260936
- Title: High Throughput Training of Deep Surrogates from Large Ensemble Runs
- Title(参考訳): 大型アンサンブルランからの深部サロゲートの高スループット学習
- Authors: Lucas Meyer (DATAMOVE, SINCLAIR AI Lab, EDF R&D), Marc Schouler
(DATAMOVE ), Robert Alexander Caulk (DATAMOVE ), Alejandro Rib\'es (EDF R&D),
Bruno Raffin (DATAMOVE )
- Abstract要約: ディープサロゲートは一般的に、加速しようとする同じソルバによってゆっくりと生成される限られた量のデータから教師付き方法で訓練される。
シミュレーションの大規模な実行から,これらのモデルのオンライントレーニングを可能にするオープンソースフレームワークを提案する。
熱方程式のサロゲートとして完全に接続されたネットワークのトレーニング実験により,提案手法により,従来のオフライン手順に比べて精度が47%向上し,バッチスループットが13倍向上した8TBのデータを2時間でトレーニングすることが可能となった。
- 参考スコア(独自算出の注目度): 38.018735015291156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a surge in deep learning approaches to accelerate
numerical solvers, which provide faithful but computationally intensive
simulations of the physical world. These deep surrogates are generally trained
in a supervised manner from limited amounts of data slowly generated by the
same solver they intend to accelerate. We propose an open-source framework that
enables the online training of these models from a large ensemble run of
simulations. It leverages multiple levels of parallelism to generate rich
datasets. The framework avoids I/O bottlenecks and storage issues by directly
streaming the generated data. A training reservoir mitigates the inherent bias
of streaming while maximizing GPU throughput. Experiment on training a fully
connected network as a surrogate for the heat equation shows the proposed
approach enables training on 8TB of data in 2 hours with an accuracy improved
by 47% and a batch throughput multiplied by 13 compared to a traditional
offline procedure.
- Abstract(参考訳): 近年では、物理的世界の忠実だが計算集約的なシミュレーションを提供する数値解法を加速するディープラーニングアプローチが急増している。
これらのディープサロゲートは、一般的に、加速しようとする同じソルバによってゆっくりと生成される限られた量のデータから教師付き方法で訓練される。
大規模なシミュレーションからこれらのモデルのオンライントレーニングを可能にするオープンソースフレームワークを提案する。
複数のレベルの並列性を活用して、リッチデータセットを生成する。
このフレームワークは、生成したデータを直接ストリーミングすることで、i/oボトルネックやストレージの問題を回避する。
トレーニング貯水池は、GPUスループットを最大化しながら、ストリーミングの固有のバイアスを軽減する。
熱方程式のサロゲートとして完全に接続されたネットワークをトレーニングする実験により,従来のオフライン処理に比べて精度が47%向上し,バッチスループットが13倍の8TBのデータを2時間でトレーニングできることを示した。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize
Mixture-of-Experts Training [13.346719319555943]
Mixture-of-Experts (MoE)は、ベースモデルにわずかにアクティベートされたエキスパートブロックを追加するニューラルネットワークアーキテクチャである。
現在の分散ディープラーニングフレームワークは、大規模なベースモデルで高品質なMoEモデルをトレーニングする能力に制限がある。
本稿では,データ,テンソル,エキスパート並列性を組み合わせた3次元ハイブリッド並列アルゴリズムDeepSpeed-TEDを提案する。
論文 参考訳(メタデータ) (2023-03-11T05:38:15Z) - Continual learning autoencoder training for a particle-in-cell
simulation via streaming [52.77024349608834]
今後のエクサスケール時代は 次世代の物理シミュレーションを 高解像度で提供します
これらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。
この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文 参考訳(メタデータ) (2022-11-09T09:55:14Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。