論文の概要: Extrapolation for Large-batch Training in Deep Learning
- arxiv url: http://arxiv.org/abs/2006.05720v1
- Date: Wed, 10 Jun 2020 08:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:30:17.614235
- Title: Extrapolation for Large-batch Training in Deep Learning
- Title(参考訳): 深層学習における大規模バッチトレーニングのための外挿法
- Authors: Tao Lin, Lingjing Kong, Sebastian U. Stich, Martin Jaggi
- Abstract要約: 我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
- 参考スコア(独自算出の注目度): 72.61259487233214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning networks are typically trained by Stochastic Gradient Descent
(SGD) methods that iteratively improve the model parameters by estimating a
gradient on a very small fraction of the training data. A major roadblock faced
when increasing the batch size to a substantial fraction of the training data
for improving training time is the persistent degradation in performance
(generalization gap). To address this issue, recent work propose to add small
perturbations to the model parameters when computing the stochastic gradients
and report improved generalization performance due to smoothing effects.
However, this approach is poorly understood; it requires often model-specific
noise and fine-tuning. To alleviate these drawbacks, we propose to use instead
computationally efficient extrapolation (extragradient) to stabilize the
optimization trajectory while still benefiting from smoothing to avoid sharp
minima. This principled approach is well grounded from an optimization
perspective and we show that a host of variations can be covered in a unified
framework that we propose. We prove the convergence of this novel scheme and
rigorously evaluate its empirical performance on ResNet, LSTM, and Transformer.
We demonstrate that in a variety of experiments the scheme allows scaling to
much larger batch sizes than before whilst reaching or surpassing SOTA
accuracy.
- Abstract(参考訳): ディープラーニングネットワークは、訓練データのごくわずかな部分の勾配を推定することによってモデルパラメータを反復的に改善するSGD(Stochastic Gradient Descent)法によって訓練される。
トレーニング時間を改善するためのトレーニングデータのかなりの部分にバッチサイズを拡大する際に直面する大きな障害は、パフォーマンスの持続的劣化(一般化ギャップ)である。
この問題に対処するため,最近の研究では,確率勾配を計算する際にモデルパラメータに小さな摂動を加え,平滑化効果による一般化性能の向上を報告している。
しかし、このアプローチはよく理解されておらず、しばしばモデル固有のノイズと微調整を必要とする。
これらの欠点を軽減するため,計算効率のよい外挿法(外挿法)を用いて最適化軌道の安定化を図ることを提案する。
この原理に基づくアプローチは最適化の観点から十分に基礎を置き、我々が提案する一連のバリエーションを統一したフレームワークでカバーできることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
様々な実験において,SOTAの精度を達成または超過しながら,従来よりもはるかに大きなバッチサイズにスケールできることを示した。
関連論文リスト
- Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文 参考訳(メタデータ) (2024-06-11T15:01:20Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning [13.937644559223548]
ディープニューラルネットワーク(DNN)をうまく一般化するためのトレーニング方法が、ディープラーニングの中心的な関心事である。
最適化時の損失関数の勾配ノルムをペナルティ化することにより,モデル一般化を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:03:45Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。