論文の概要: Concurrent Adversarial Learning for Large-Batch Training
- arxiv url: http://arxiv.org/abs/2106.00221v1
- Date: Tue, 1 Jun 2021 04:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:37:26.365691
- Title: Concurrent Adversarial Learning for Large-Batch Training
- Title(参考訳): 大規模バッチ学習のための並行学習
- Authors: Yong Liu, Xiangning Chen, Minhao Cheng, Cho-Jui Hsieh, Yang You
- Abstract要約: 逆学習は、決定面を滑らかにし、平坦な領域に偏りを付けるための自然な選択である。
本稿では,安定パラメータを用いて,逐次勾配計算を分離するConcurrent Adversarial Learning(ConAdv)手法を提案する。
これは、ResNet-50トレーニングバッチサイズを96Kにスケールする最初の作業である。
- 参考スコア(独自算出の注目度): 83.55868483681748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-batch training has become a commonly used technique when training
neural networks with a large number of GPU/TPU processors. As batch size
increases, stochastic optimizers tend to converge to sharp local minima,
leading to degraded test performance. Current methods usually use extensive
data augmentation to increase the batch size, but we found the performance gain
with data augmentation decreases as batch size increases, and data augmentation
will become insufficient after certain point. In this paper, we propose to use
adversarial learning to increase the batch size in large-batch training.
Despite being a natural choice for smoothing the decision surface and biasing
towards a flat region, adversarial learning has not been successfully applied
in large-batch training since it requires at least two sequential gradient
computations at each step, which will at least double the running time compared
with vanilla training even with a large number of processors. To overcome this
issue, we propose a novel Concurrent Adversarial Learning (ConAdv) method that
decouple the sequential gradient computations in adversarial learning by
utilizing staled parameters. Experimental results demonstrate that ConAdv can
successfully increase the batch size on both ResNet-50 and EfficientNet
training on ImageNet while maintaining high accuracy. In particular, we show
ConAdv along can achieve 75.3\% top-1 accuracy on ImageNet ResNet-50 training
with 96K batch size, and the accuracy can be further improved to 76.2\% when
combining ConAdv with data augmentation. This is the first work successfully
scales ResNet-50 training batch size to 96K.
- Abstract(参考訳): 大規模バッチトレーニングは、多数のGPU/TPUプロセッサでニューラルネットワークをトレーニングする際に一般的に使用されるテクニックとなっている。
バッチサイズが大きくなると、確率的最適化器は鋭い局所的な最小値に収束し、テスト性能が低下する。
現行の手法では,バッチサイズを増大させるため,バッチサイズが大きくなるにつれてデータ増倍による性能向上が減少し,ある時点からデータ増倍が不十分になることがわかった。
本稿では,大規模バッチ学習におけるバッチサイズ向上のための逆学習を提案する。
意思決定面の平滑化と平坦な領域への偏りに対する自然な選択であるにもかかわらず、各ステップで少なくとも2つの逐次的な勾配計算が必要となるため、大規模なバッチトレーニングでは、逆学習がうまく適用されていない。
そこで本研究では, 逐次的勾配計算を逐次的に切り離し, 定常パラメータを活用し, 同時進行学習 (conadv) 法を提案する。
実験の結果,ConAdvは高精度を維持しつつ,ImageNet上でのResNet-50とEfficientNetトレーニングの両方でバッチサイズを向上できることがわかった。
具体的には,ImageNet ResNet-50トレーニングにおいて,96Kバッチサイズで75.3\%のTop-1精度を実現し,ConAdvとデータ拡張を組み合わせた場合の精度をさらに76.2\%に向上できることを示す。
これはResNet-50トレーニングバッチサイズを96Kにスケールする最初の作業である。
関連論文リスト
- Can we learn better with hard samples? [0.0]
従来のアルゴリズムの変種が提案され、ネットワークは損失の高いミニバッチに焦点を絞った訓練を行っている。
提案手法は,STL-10上のEfficientNet-B4において,従来のミニバッチ法よりも26.47%少ないエポック数で一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-04-07T05:45:26Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Efficient and Effective Augmentation Strategy for Adversarial Training [48.735220353660324]
ディープニューラルネットワークの敵対的トレーニングは、標準トレーニングよりもはるかにデータ処理が難しいことが知られている。
本稿では,DAJAT(Diverse Augmentation-based Joint Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-10-27T10:59:55Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - Pruning Convolutional Filters using Batch Bridgeout [14.677724755838556]
最先端のコンピュータビジョンモデルでは、トレーニングセットに適合するために必要なパラメータ数がはるかに多いため、能力が急速に向上している。
これにより最適化と一般化性能が向上する。
推論コストを削減するために、トレーニングされたニューラルネットワークの畳み込みフィルタを切断することで、推論中の実行時のメモリと計算要求を削減できる。
本稿では,ニューラルネットワークの性能低下を最小限に抑え,効率よく刈り取ることができるようにトレーニングするために,スパシティ誘導正規化スキームであるBatch Bridgeoutを提案する。
論文 参考訳(メタデータ) (2020-09-23T01:51:47Z) - Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes [9.213729275749452]
そこで本研究では,大規模ミニバッチの学習効率を向上させるため,LANSと呼ばれる高速化勾配法を提案する。
192のAWS EC2 P3dn.24xlargeインスタンスで54分かかり、SQuAD v1.1で目標F1スコアが90.5以上に達する。
論文 参考訳(メタデータ) (2020-06-24T05:00:41Z) - The Limit of the Batch Size [79.8857712299211]
大規模バッチトレーニングは、現在の分散ディープラーニングシステムにとって効率的なアプローチである。
本稿では,バッチサイズの限界について検討する。
ステップ・バイ・ステップ比較のための詳細な数値最適化手法を提案する。
論文 参考訳(メタデータ) (2020-06-15T16:18:05Z) - Scalable and Practical Natural Gradient for Large-Scale Deep Learning [19.220930193896404]
SP-NGDは1次法に比べて計算オーバーヘッドが無視できるような大きなミニバッチサイズにスケールする。
また,SP-NGDの873ステップにおいて,超大小バッチサイズ131,072の74.9%,32,768の1024GPUを用いた5.5分でトップ1検証精度75.4%の収束性を示した。
論文 参考訳(メタデータ) (2020-02-13T11:55:37Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。