論文の概要: Dynamic Batch Adaptation
- arxiv url: http://arxiv.org/abs/2208.00815v1
- Date: Mon, 1 Aug 2022 12:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:47:25.752686
- Title: Dynamic Batch Adaptation
- Title(参考訳): 動的バッチ適応
- Authors: Cristian Simionescu, George Stoica, Robert Herscovici
- Abstract要約: 現在のディープラーニング適応手法は、各パラメータが使用する効果的な学習率を変化させることで、パラメータ更新のステップサイズを調整している。
バッチサイズと更新ステップの学習率の既知の逆関係により、更新ステップの寸法と構成を動的に決定する新しいトレーニング手順を導入する。
- 参考スコア(独自算出の注目度): 2.861848675707603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current deep learning adaptive optimizer methods adjust the step magnitude of
parameter updates by altering the effective learning rate used by each
parameter. Motivated by the known inverse relation between batch size and
learning rate on update step magnitudes, we introduce a novel training
procedure that dynamically decides the dimension and the composition of the
current update step. Our procedure, Dynamic Batch Adaptation (DBA) analyzes the
gradients of every sample and selects the subset that best improves certain
metrics such as gradient variance for each layer of the network. We present
results showing DBA significantly improves the speed of model convergence.
Additionally, we find that DBA produces an increased improvement over standard
optimizers when used in data scarce conditions where, in addition to
convergence speed, it also significantly improves model generalization,
managing to train a network with a single fully connected hidden layer using
only 1% of the MNIST dataset to reach 97.79% test accuracy. In an even more
extreme scenario, it manages to reach 97.44% test accuracy using only 10
samples per class. These results represent a relative error rate reduction of
81.78% and 88.07% respectively, compared to the standard optimizers, Stochastic
Gradient Descent (SGD) and Adam.
- Abstract(参考訳): 現在のディープラーニング適応最適化手法は、各パラメータが使用する効果的な学習率を変化させることで、パラメータ更新のステップサイズを調整する。
更新ステップの大きさにおけるバッチサイズと学習率の既知の逆関係に動機づけられ、現在の更新ステップの次元と構成を動的に決定する新しいトレーニング手順を導入する。
提案手法である動的バッチ適応(dba)は,各サンプルの勾配を解析し,ネットワークの各レイヤの勾配分散など,特定のメトリックを最も良くするサブセットを選択する。
DBAはモデル収束の速度を大幅に改善することを示す。
さらに、DBAは、データ不足時に標準オプティマイザよりも改善され、収束速度に加えて、モデル一般化も大幅に向上し、MNISTデータセットのわずか1%を使用して単一の完全に接続された隠れ層でネットワークをトレーニングし、97.79%のテスト精度に達する。
さらに極端なシナリオでは、クラス毎に10サンプルしか使用せず、97.44%のテスト精度に達する。
これらの結果は、標準オプティマイザであるStochastic Gradient Descent (SGD)とAdamと比較して、それぞれ81.78%と88.07%の相対誤差率の低下を示している。
関連論文リスト
- Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization [14.23697277904244]
Reweighted Gradient Descent (RGD) は、動的サンプル再重み付けによりディープニューラルネットワークの性能を向上させる新しい最適化手法である。
本稿では,教師付き学習,メタラーニング,ドメイン外一般化など,様々な学習課題におけるRGDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-15T15:58:04Z) - Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter
Initialization [3.1153758106426603]
学習速度を$alpha$でローカライズする最適化メタアルゴリズムであるActiveLRを提案し,各エポックの勾配が符号を変更するか否かに応じて各エポックに適応する。
我々は、広く使われ、最近公開された勾配勾配勾配、すなわち運動量を持つSGD、AdamW、RAdam、AdaBeliefのアクティブバージョン(我々のもの)を実装している。
論文 参考訳(メタデータ) (2023-01-24T16:57:00Z) - Input Normalized Stochastic Gradient Descent Training of Deep Neural
Networks [2.1485350418225244]
本稿では,入力正規化勾配 Descent (INSGD) と呼ばれる機械学習モデルを学習するための新しい最適化アルゴリズムを提案する。
我々のアルゴリズムは,NLMSと同様,学習速度に適用した$ell_$および$ell_$ベースの正規化を用いて,勾配勾配を用いてネットワーク重みを更新する。
本稿では,ResNet-18,WResNet-20,ResNet-50,玩具ニューラルネットワークを用いて,ベンチマークデータセット上でのトレーニングアルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2022-12-20T00:08:37Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - ScopeFlow: Dynamic Scene Scoping for Optical Flow [94.42139459221784]
我々は,光流の一般的なトレーニングプロトコルを変更することを提案する。
この改善は、挑戦的なデータをサンプリングする際のバイアスを観察することに基づいている。
トレーニングプロトコルでは,正規化と拡張の双方が減少することが判明した。
論文 参考訳(メタデータ) (2020-02-25T09:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。