論文の概要: Revisiting LARS for Large Batch Training Generalization of Neural
Networks
- arxiv url: http://arxiv.org/abs/2309.14053v2
- Date: Tue, 28 Nov 2023 05:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:37:33.959257
- Title: Revisiting LARS for Large Batch Training Generalization of Neural
Networks
- Title(参考訳): ニューラルネットワークの大規模バッチトレーニング一般化のためのlarsの再訪
- Authors: Khoi Do, Duong Nguyen, Hoa Nguyen, Long Tran-Thanh, and Quoc-Viet Pham
- Abstract要約: LARSとLAMBは、AIのトレーニング安定性を確保するために、大規模バッチ学習において顕著なテクニックとして登場した。
ウォームアップを必要とせずに,初期段階における堅牢なトレーニングを容易にする,TVLARS (Time Varying LARS) と呼ばれる新しいアルゴリズムを提案する。
TVLARSはLARSとLAMBを一貫して上回り、分類シナリオでは最大2%改善している。
- 参考スコア(独自算出の注目度): 18.219111420044435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LARS and LAMB have emerged as prominent techniques in Large Batch Learning
(LBL) to ensure training stability in AI. Convergence stability is a challenge
in LBL, where the AI agent usually gets trapped in the sharp minimizer. To
address this challenge, warm-up is an efficient technique, but it lacks a
strong theoretical foundation. Specifically, the warm-up process often reduces
gradients in the early phase, inadvertently preventing the agent from escaping
the sharp minimizer early on. In light of this situation, we conduct empirical
experiments to analyze the behaviors of LARS and LAMB with and without a
warm-up strategy. Our analyses give a comprehensive insight into the behaviors
of LARS, LAMB, and the necessity of a warm-up technique in LBL, including an
explanation of their failure in many cases. Building upon these insights, we
propose a novel algorithm called Time Varying LARS (TVLARS), which facilitates
robust training in the initial phase without the need for warm-up. A
configurable sigmoid-like function is employed in TVLARS to replace the warm-up
process to enhance training stability. Moreover, TVLARS stimulates gradient
exploration in the early phase, thus allowing it to surpass the sharp minimizes
early on and gradually transition to LARS and achieving robustness of LARS in
the latter phases. Extensive experimental evaluations reveal that TVLARS
consistently outperforms LARS and LAMB in most cases, with improvements of up
to 2% in classification scenarios. Notably, in every case of self-supervised
learning, TVLARS dominates LARS and LAMB with performance improvements of up to
10%.
- Abstract(参考訳): LARSとLAMBは、AIのトレーニング安定性を確保するために、LBL(Large Batch Learning)において顕著なテクニックとして登場した。
収束安定性はLBLの課題であり、AIエージェントは通常、鋭い最小化器に閉じ込められる。
この課題に対処するためには、ウォームアップは効率的なテクニックであるが、強力な理論的基盤がない。
具体的には、ウォームアッププロセスは、しばしば初期段階の勾配を減少させ、エージェントが急激な最小化剤を早期に逃がすことを防ぐ。
このような状況を踏まえて,我々はLARSとLAMBの動作をウォームアップ戦略なしで解析する実験を行った。
本研究は,子牛,子羊の行動とlblにおけるウォームアップ技術の必要性を包括的に把握し,多くの場合においてその失敗を説明する。
これらの知見に基づいて,ウォームアップを必要とせず,初期段階におけるロバストなトレーニングを容易にする時間変化lars(tvlars)と呼ばれる新しいアルゴリズムを提案する。
トレーニング安定性を高めるためにウォームアッププロセスを置き換えるために、TVLARSで構成可能なシグモイド様関数が使用される。
さらに、tvlarsは初期段階の勾配探査を刺激し、初期段階の急勾配を最小化し、段階的にlarsに移行し、後期段階におけるlarsの堅牢性を達成する。
大規模な実験的評価の結果、TVLARSはLARSとLAMBを一貫して上回り、分類シナリオでは最大2%の改善が見られた。
特に、自己教師型学習では、TVLARSがLARSとLAMBを支配し、パフォーマンスは最大10%向上した。
関連論文リスト
- Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Learning with Local Gradients at the Edge [14.94491070863641]
我々は、Target Projection Gradient Descent (tpSGD) と呼ばれる新しいバックプロパゲーションフリー最適化アルゴリズムを提案する。
tpSGDは、任意の損失関数を扱うために、直接ランダムターゲット射影を一般化する。
我々は、深層ニューラルネットワークのトレーニングにおけるtpSGDの性能を評価し、マルチ層RNNへのアプローチを拡張した。
論文 参考訳(メタデータ) (2022-08-17T19:51:06Z) - Study on the Large Batch Size Training of Neural Networks Based on the
Second Order Gradient [1.3794617022004712]
深層ニューラルネットワーク(DNN)における大規模バッチサイズのトレーニングは、よく知られた「一般化ギャップ」を持ち、非常に一般化性能の低下を引き起こす。
本稿では,nnの勾配,パラメータ更新ステップ長,損失更新ステップ長といった基本構造特性の異なるバッチサイズにおける進化について,理論と実験を組み合わせて検討する。
論文 参考訳(メタデータ) (2020-12-16T08:43:15Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。