論文の概要: Out-of-core Training for Extremely Large-Scale Neural Networks With
Adaptive Window-Based Scheduling
- arxiv url: http://arxiv.org/abs/2010.14109v1
- Date: Tue, 27 Oct 2020 07:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:33:43.111295
- Title: Out-of-core Training for Extremely Large-Scale Neural Networks With
Adaptive Window-Based Scheduling
- Title(参考訳): 適応型ウィンドウベーススケジューリングを用いた大規模ニューラルネットワークの外部学習
- Authors: Akio Hayakawa, Takuya Narihira
- Abstract要約: 本稿では,GPUメモリよりも大容量の超大規模ニューラルネットワークを高速にトレーニングする,新しいアウトオブコアアルゴリズムを提案する。
我々は、コア外実行によるニューラルネットワークのトレーニングに、OSで一般的に実行される仮想アドレッシング技術を適用した。
ResNet-50を1440バッチサイズでトレーニングし、トレーニング速度を55%に保ちました。
- 参考スコア(独自算出の注目度): 4.903820815918411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large neural networks demonstrate higher performance in various tasks,
training large networks is difficult due to limitations on GPU memory size. We
propose a novel out-of-core algorithm that enables faster training of extremely
large-scale neural networks with sizes larger than allotted GPU memory. Under a
given memory budget constraint, our scheduling algorithm locally adapts the
timing of memory transfers according to memory usage of each function, which
improves overlap between computation and memory transfers. Additionally, we
apply virtual addressing technique, commonly performed in OS, to training of
neural networks with out-of-core execution, which drastically reduces the
amount of memory fragmentation caused by frequent memory transfers. With our
proposed algorithm, we successfully train ResNet-50 with 1440 batch-size with
keeping training speed at 55%, which is 7.5x larger than the upper bound of
physical memory. It also outperforms a previous state-of-the-art substantially,
i.e. it trains a 1.55x larger network than state-of-the-art with faster
execution. Moreover, we experimentally show that our approach is also scalable
for various types of networks.
- Abstract(参考訳): 大きなニューラルネットワークは様々なタスクで高いパフォーマンスを示すが、GPUメモリサイズに制限があるため、大きなネットワークのトレーニングは難しい。
本稿では,GPUメモリよりも大容量の超大規模ニューラルネットワークを高速にトレーニングする,新しいアウトオブコアアルゴリズムを提案する。
所定のメモリ予算制約の下で、スケジューリングアルゴリズムは各関数のメモリ使用量に応じてメモリ転送のタイミングを局所的に調整し、計算とメモリ転送の重複を改善する。
さらに、OSで一般的に行われている仮想アドレッシング手法を、コア外実行によるニューラルネットワークのトレーニングに適用し、頻繁なメモリ転送によるメモリ断片化を大幅に削減する。
提案アルゴリズムでは,1440バッチサイズでResNet-50をトレーニングし,トレーニング速度を55%に維持することに成功した。
また、従来の最先端ネットワーク、すなわち、より高速な実行で最先端ネットワークよりも1.55倍のネットワークをトレーニングしている。
さらに,本手法は様々な種類のネットワークに対してスケーラブルであることを示す。
関連論文リスト
- OLLA: Decreasing the Memory Usage of Neural Networks by Optimizing the
Lifetime and Location of Arrays [6.418232942455968]
OLLAは、ニューラルネットワークのトレーニングに使用されるテンソルの寿命とメモリ位置を最適化するアルゴリズムである。
問題のエンコーディングを単純化し、最先端のニューラルネットワークのサイズにスケールするためのアプローチを可能にするために、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T02:39:13Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Robust High-dimensional Memory-augmented Neural Networks [13.82206983716435]
メモリ拡張ニューラルネットワークは、これらの問題を克服するために、明示的なメモリでニューラルネットワークを強化する。
この明示的なメモリへのアクセスは、各個々のメモリエントリを含むソフト読み取りおよび書き込み操作を介して行われる。
本稿では,高次元(HD)ベクトル上でのアナログインメモリ計算を行う明示メモリとして,計算メモリユニットを用いた頑健なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-05T12:01:56Z) - Improving Memory Utilization in Convolutional Neural Network
Accelerators [16.340620299847384]
本稿では,アクティベーション層を重複させ,メモリをより効率的に利用するためのマッピング手法を提案する。
様々な実世界のオブジェクト検出器ネットワークによる実験により、提案されたマッピング技術により、メモリのアクティベーションを最大32.9%削減できることが示された。
より高解像度のノイズ除去ネットワークでは、活性化メモリの48.8%の節約を実現している。
論文 参考訳(メタデータ) (2020-07-20T09:34:36Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Ordering Chaos: Memory-Aware Scheduling of Irregularly Wired Neural
Networks for Edge Devices [10.876317610988059]
我々は、SERENITYと呼ばれるメモリ認識コンパイラを提案し、最適なメモリフットプリントでスケジュールを見つけるシーケンスを見つける。
私たちのソリューションは、最適値を超えたさらなる削減を可能にするグラフ書き換え技術も備えています。
論文 参考訳(メタデータ) (2020-03-04T23:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。