論文の概要: Dynamically Adjusting Transformer Batch Size by Monitoring Gradient
Direction Change
- arxiv url: http://arxiv.org/abs/2005.02008v1
- Date: Tue, 5 May 2020 08:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 13:14:05.097371
- Title: Dynamically Adjusting Transformer Batch Size by Monitoring Gradient
Direction Change
- Title(参考訳): 勾配方向変化のモニタリングによる変圧器バッチサイズの動的調整
- Authors: Hongfei Xu and Josef van Genabith and Deyi Xiong and Qiuhui Liu
- Abstract要約: バッチサイズの増加が勾配方向に与える影響を分析する。
本稿では,勾配の安定性を角度変化で評価する。
トレーニング中の適切なバッチサイズと効率的なバッチサイズを動的に決定する。
- 参考スコア(独自算出の注目度): 69.40942736249397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice of hyper-parameters affects the performance of neural models.
While much previous research (Sutskever et al., 2013; Duchi et al., 2011;
Kingma and Ba, 2015) focuses on accelerating convergence and reducing the
effects of the learning rate, comparatively few papers concentrate on the
effect of batch size. In this paper, we analyze how increasing batch size
affects gradient direction, and propose to evaluate the stability of gradients
with their angle change. Based on our observations, the angle change of
gradient direction first tends to stabilize (i.e. gradually decrease) while
accumulating mini-batches, and then starts to fluctuate. We propose to
automatically and dynamically determine batch sizes by accumulating gradients
of mini-batches and performing an optimization step at just the time when the
direction of gradients starts to fluctuate. To improve the efficiency of our
approach for large models, we propose a sampling approach to select gradients
of parameters sensitive to the batch size. Our approach dynamically determines
proper and efficient batch sizes during training. In our experiments on the WMT
14 English to German and English to French tasks, our approach improves the
Transformer with a fixed 25k batch size by +0.73 and +0.82 BLEU respectively.
- Abstract(参考訳): ハイパーパラメータの選択はニューラルモデルの性能に影響する。
これまでの多くの研究(Sutskever et al., 2013; Duchi et al., 2011; Kingma and Ba, 2015)は収束の加速と学習率の影響の低減に焦点を当てていたが、バッチサイズの影響に焦点を当てた論文は比較的少ない。
本稿では,バッチサイズの増加が勾配方向に与える影響を分析し,その角度変化による勾配の安定性を評価する。
我々の観測から、勾配方向の角度変化は、まずミニバッチを蓄積しながら安定(すなわち徐々に減少)し、次に変動し始める傾向にある。
本稿では,ミニバッチの勾配を蓄積し,勾配の方向が変動し始めるタイミングで最適化ステップを実行することで,バッチサイズを自動的かつ動的に決定する。
大規模モデルに対するアプローチの効率を改善するために,バッチサイズに敏感なパラメータの勾配を選択するサンプリング手法を提案する。
トレーニング中の適切なバッチサイズと効率的なバッチサイズを動的に決定する。
WMT 14の英語とドイツ語、フランス語のタスクに対する実験では、それぞれ25kのバッチサイズを+0.73と+0.82 BLEUで改善した。
関連論文リスト
- Discrete error dynamics of mini-batch gradient descent for least squares regression [4.159762735751163]
置換のないサンプリングにおいて,少なくとも正方形に対するミニバッチ勾配勾配のダイナミクスについて検討した。
また、連続時間勾配流解析では検出できない離散化効果について検討し、最小バッチ勾配降下がステップサイズ依存解に収束することを示す。
論文 参考訳(メタデータ) (2024-06-06T02:26:14Z) - Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Step-size Adaptation Using Exponentiated Gradient Updates [21.162404996362948]
ステップサイズの適応的なチューニング手法で与えられた拡張が性能を大幅に向上させることを示す。
私たちは、アップデートのグローバルなステップサイズスケールと、各座標のゲインファクタを維持しています。
提案手法は, 特別に調整された学習率スケジュールを使わずに, 標準モデルの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-01-31T23:17:08Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。