論文の概要: Revisiting LARS for Large Batch Training Generalization of Neural
Networks
- arxiv url: http://arxiv.org/abs/2309.14053v4
- Date: Thu, 15 Feb 2024 17:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 20:59:50.386170
- Title: Revisiting LARS for Large Batch Training Generalization of Neural
Networks
- Title(参考訳): ニューラルネットワークの大規模バッチトレーニング一般化のためのlarsの再訪
- Authors: Khoi Do, Duong Nguyen, Hoa Nguyen, Long Tran-Thanh, Nguyen-Hoang Tran,
and Quoc-Viet Pham
- Abstract要約: 本稿では,レイヤワイド・アダプティブ・スケーリング・比率(LARS)を用いた大規模バッチ・トレーニング手法について検討する。
我々は,初期段階における堅牢なトレーニングのために,ウォームアップをシグモイドのような関数に置き換える新しいアルゴリズムであるTime Varying LARS(TVLARS)を提案する。
TVLARSはLARSとLAMBを一貫して上回り、分類シナリオは最大2%改善している。
- 参考スコア(独自算出の注目度): 23.627830861818246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores Large Batch Training techniques using layer-wise adaptive
scaling ratio (LARS) across diverse settings, uncovering insights. LARS
algorithms with warm-up tend to be trapped in sharp minimizers early on due to
redundant ratio scaling. Additionally, a fixed steep decline in the latter
phase restricts deep neural networks from effectively navigating early-phase
sharp minimizers. Building on these findings, we propose Time Varying LARS
(TVLARS), a novel algorithm that replaces warm-up with a configurable
sigmoid-like function for robust training in the initial phase. TVLARS promotes
gradient exploration early on, surpassing sharp optimizers and gradually
transitioning to LARS for robustness in later phases. Extensive experiments
demonstrate that TVLARS consistently outperforms LARS and LAMB in most cases,
with up to 2\% improvement in classification scenarios. Notably, in all
self-supervised learning cases, TVLARS dominates LARS and LAMB with performance
improvements of up to 10\%.
- Abstract(参考訳): 本稿では,階層型適応スケーリング比(lars)を用いた大規模バッチトレーニング手法について検討し,知見を明らかにする。
ウォームアップを伴うLARSアルゴリズムは、冗長比のスケーリングのため、早期にシャープな最小化器に閉じ込められる傾向にある。
さらに、後者のフェーズの急激な低下により、ディープニューラルネットワークは、アーリーフェーズの鋭い最小化器を効果的にナビゲートすることを制限している。
これらの結果に基づき,初期段階におけるロバストトレーニングのために,ウォームアップを構成可能なシグモイド様関数に置き換える新しいアルゴリズムであるtime varying lars (tvlars)を提案する。
TVLARSは勾配探索を早期に促進し、急激な最適化器を超え、後段の堅牢性のために徐々にLARSに移行する。
広範囲な実験により、TVLARSはLARSとLAMBを一貫して上回り、分類シナリオは最大で2倍改善されている。
特に, 自己指導型学習では, LARS と LAMB が支配的であり, 性能は最大 10 % 向上した。
関連論文リスト
- Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Learning with Local Gradients at the Edge [14.94491070863641]
我々は、Target Projection Gradient Descent (tpSGD) と呼ばれる新しいバックプロパゲーションフリー最適化アルゴリズムを提案する。
tpSGDは、任意の損失関数を扱うために、直接ランダムターゲット射影を一般化する。
我々は、深層ニューラルネットワークのトレーニングにおけるtpSGDの性能を評価し、マルチ層RNNへのアプローチを拡張した。
論文 参考訳(メタデータ) (2022-08-17T19:51:06Z) - Study on the Large Batch Size Training of Neural Networks Based on the
Second Order Gradient [1.3794617022004712]
深層ニューラルネットワーク(DNN)における大規模バッチサイズのトレーニングは、よく知られた「一般化ギャップ」を持ち、非常に一般化性能の低下を引き起こす。
本稿では,nnの勾配,パラメータ更新ステップ長,損失更新ステップ長といった基本構造特性の異なるバッチサイズにおける進化について,理論と実験を組み合わせて検討する。
論文 参考訳(メタデータ) (2020-12-16T08:43:15Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。