論文の概要: SOLAR: A Highly Optimized Data Loading Framework for Distributed
Training of CNN-based Scientific Surrogates
- arxiv url: http://arxiv.org/abs/2211.00224v1
- Date: Tue, 1 Nov 2022 02:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:45:27.497729
- Title: SOLAR: A Highly Optimized Data Loading Framework for Distributed
Training of CNN-based Scientific Surrogates
- Title(参考訳): SOLAR: CNNベースの科学サロゲートの分散トレーニングのための高度に最適化されたデータローディングフレームワーク
- Authors: Baixi Sun, Xiaodong Yu, Chengming Zhang, Jiannan Tian, Sian Jin, Kamil
Iskra, Tao Zhou, Tekin Bicer, Pete Beckman, and Dingwen Tao
- Abstract要約: CNNベースのサロゲートは、従来の時間を要する物理的アプローチを置き換える科学的応用で普及している。
データローディングのオーバーヘッドは、大規模なデータセットでサロゲートするトレーニングにおいて、大きなパフォーマンスボトルネックになる。
本稿では,サロゲートデータローダであるSOLARを提案する。
- 参考スコア(独自算出の注目度): 8.242705776394883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CNN-based surrogates have become prevalent in scientific applications to
replace conventional time-consuming physical approaches. Although these
surrogates can yield satisfactory results with significantly lower computation
costs over small training datasets, our benchmarking results show that
data-loading overhead becomes the major performance bottleneck when training
surrogates with large datasets. In practice, surrogates are usually trained
with high-resolution scientific data, which can easily reach the terabyte
scale. Several state-of-the-art data loaders are proposed to improve the
loading throughput in general CNN training; however, they are sub-optimal when
applied to the surrogate training. In this work, we propose SOLAR, a surrogate
data loader, that can ultimately increase loading throughput during the
training. It leverages our three key observations during the benchmarking and
contains three novel designs. Specifically, SOLAR first generates a
pre-determined shuffled index list and accordingly optimizes the global access
order and the buffer eviction scheme to maximize the data reuse and the buffer
hit rate. It then proposes a tradeoff between lightweight computational
imbalance and heavyweight loading workload imbalance to speed up the overall
training. It finally optimizes its data access pattern with HDF5 to achieve a
better parallel I/O throughput. Our evaluation with three scientific surrogates
and 32 GPUs illustrates that SOLAR can achieve up to 24.4X speedup over PyTorch
Data Loader and 3.52X speedup over state-of-the-art data loaders.
- Abstract(参考訳): CNNベースのサロゲートは、従来の時間を要する物理的アプローチを置き換える科学的応用で普及している。
これらのサロゲートは、小さなトレーニングデータセットよりも計算コストが大幅に低い満足な結果が得られるが、ベンチマーク結果は、大規模なデータセットでサロゲートをトレーニングする場合、データローディングオーバーヘッドが大きなパフォーマンスボトルネックとなることを示している。
実際には、サロゲートは通常、テラバイト規模に到達しやすい高解像度の科学的データで訓練される。
一般的なcnnトレーニングにおけるロードスループットを改善するために,最先端のデータローダがいくつか提案されている。
そこで本研究では,サロゲートデータローダであるsolarを提案する。
ベンチマーク中に3つの重要な観測結果を活用し、3つの新しい設計を含む。
具体的には、solarは事前に決定されたシャッフルインデックスリストを生成し、データ再利用とバッファヒット率を最大化するためにグローバルアクセス順序とバッファ退避スキームを最適化する。
次に、軽量な計算不均衡と負荷負荷不均衡のトレードオフを提案し、全体のトレーニングを高速化する。
最終的にHDF5でデータアクセスパターンを最適化し、より優れた並列I/Oスループットを実現する。
3つの科学的サロゲートと32のGPUによる評価は、SOLARがPyTorch Data Loaderで最大24.4倍、最先端のデータローダで3.52倍のスピードアップを達成可能であることを示している。
関連論文リスト
- GDeR: Safeguarding Efficiency, Balancing, and Robustness via Prototypical Graph Pruning [44.401418612374286]
トレーニング可能なプロトタイプを用いて,プロセス中のトレーニングを更新するための新しいソフトプルーニング手法であるGDeRを導入する。
GDeRは、トレーニングサンプルの30%削減で、完全なデータセットのパフォーマンスを達成または上回る。
また、不均衡なトレーニングやノイズの多いトレーニングシナリオにおいて、最先端のプルーニング手法よりも優れています。
論文 参考訳(メタデータ) (2024-10-17T16:56:01Z) - DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - Data Augmentation for Traffic Classification [54.92823760790628]
Data Augmentation (DA) はコンピュータビジョン(CV)と自然言語処理(NLP)に広く採用されている技術である。
DAはネットワークのコンテキスト、特にトラフィック分類(TC)タスクにおいて、牽引力を得るのに苦労しています。
論文 参考訳(メタデータ) (2024-01-19T15:25:09Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - High Throughput Training of Deep Surrogates from Large Ensemble Runs [38.018735015291156]
ディープサロゲートは一般的に、加速しようとする同じソルバによってゆっくりと生成される限られた量のデータから教師付き方法で訓練される。
シミュレーションの大規模な実行から,これらのモデルのオンライントレーニングを可能にするオープンソースフレームワークを提案する。
熱方程式のサロゲートとして完全に接続されたネットワークのトレーニング実験により,提案手法により,従来のオフライン手順に比べて精度が47%向上し,バッチスループットが13倍向上した8TBのデータを2時間でトレーニングすることが可能となった。
論文 参考訳(メタデータ) (2023-09-28T09:34:52Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - Profiling and Improving the PyTorch Dataloader for high-latency Storage:
A Technical Report [0.7349727826230862]
この作業は、PyTorch Frameworkのデータロードパイプラインに焦点を当てている。
画像などの多数のファイルのロードを伴う分類タスクでは、トレーニングウォールタイムが大幅に改善できることが示される。
新たに修正したConcurrentDataloaderを使えば、GPU使用率の改善や、バッチ読み込み時間の最大12倍の大幅な削減が可能になります。
論文 参考訳(メタデータ) (2022-11-09T14:16:30Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z) - Importance of Data Loading Pipeline in Training Deep Neural Networks [2.127049691404299]
大規模なモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。
データ読み込みを高速化するためにバイナリデータフォーマットと、データ拡張を高速化するためにNVIDIA DALIを比較した。
本研究は、そのような専用ツールを使用する場合、20%から40%の順に改善されていることを示す。
論文 参考訳(メタデータ) (2020-04-21T14:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。