論文の概要: Training trajectories, mini-batch losses and the curious role of the
learning rate
- arxiv url: http://arxiv.org/abs/2301.02312v1
- Date: Thu, 5 Jan 2023 21:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:50:34.294567
- Title: Training trajectories, mini-batch losses and the curious role of the
learning rate
- Title(参考訳): 学習軌跡とミニバッチ損失と学習率の興味深い役割
- Authors: Mark Sandler, Andrey Zhmoginov, Max Vladymyrov, Nolan Miller
- Abstract要約: 検証された勾配勾配勾配は、ディープラーニングのほぼすべての応用において、基本的な役割を担っていることを示す。
本稿では,ミニバッチの勾配と全バッチの関係を解析する簡単なモデルと幾何学的解釈を提案する。
特に、非常に低い損失値は、十分な学習率で1段階の降下に到達することができる。
- 参考スコア(独自算出の注目度): 13.848916053916618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent plays a fundamental role in nearly all
applications of deep learning. However its efficiency and remarkable ability to
converge to global minimum remains shrouded in mystery. The loss function
defined on a large network with large amount of data is known to be non-convex.
However, relatively little has been explored about the behavior of loss
function on individual batches. Remarkably, we show that for ResNet the loss
for any fixed mini-batch when measured along side SGD trajectory appears to be
accurately modeled by a quadratic function. In particular, a very low loss
value can be reached in just one step of gradient descent with large enough
learning rate. We propose a simple model and a geometric interpretation that
allows to analyze the relationship between the gradients of stochastic
mini-batches and the full batch and how the learning rate affects the
relationship between improvement on individual and full batch. Our analysis
allows us to discover the equivalency between iterate aggregates and specific
learning rate schedules. In particular, for Exponential Moving Average (EMA)
and Stochastic Weight Averaging we show that our proposed model matches the
observed training trajectories on ImageNet. Our theoretical model predicts that
an even simpler averaging technique, averaging just two points a few steps
apart, also significantly improves accuracy compared to the baseline. We
validated our findings on ImageNet and other datasets using ResNet
architecture.
- Abstract(参考訳): 確率勾配降下は、ディープラーニングのほとんど全ての応用において基本的な役割を果たす。
しかし、その効率性と世界最小に収束する驚くべき能力は謎に包まれている。
大量のデータを持つ大規模ネットワーク上で定義された損失関数は非凸であることが知られている。
しかし,個々のバッチにおける損失関数の挙動についてはほとんど研究されていない。
注目すべきは,sgd軌道に沿って測定した場合の固定ミニバッチの損失を2次関数で正確にモデル化できることである。
特に、十分な学習率を持つ勾配降下の1ステップで、非常に低い損失値に達することができる。
本稿では,確率的ミニバッチの勾配と全バッチの関係と,学習速度が個人と全バッチの関係にどのように影響するかを分析するための,単純なモデルと幾何学的解釈を提案する。
分析により、反復集合と特定の学習率スケジュールの等価性を発見することができる。
特に指数的移動平均(ema)と確率的重み平均化について,imagenet上で観測された訓練軌跡と一致していることを示す。
我々の理論モデルは、数ステップずつ平均するよりも単純な平均化手法がベースラインよりも精度を大幅に向上させると予測している。
我々は、ResNetアーキテクチャを用いて、ImageNetや他のデータセットに関する結果を検証する。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - SuSana Distancia is all you need: Enforcing class separability in metric
learning via two novel distance-based loss functions for few-shot image
classification [0.9236074230806579]
本稿では,少数のデータ間のクラス内距離とクラス間距離を調べることで,埋め込みベクトルの重要性を考慮に入れた2つの損失関数を提案する。
以上の結果から,miniImagenNetベンチマークの精度は,他のメトリクスベースの数ショット学習手法に比べて2%向上した。
論文 参考訳(メタデータ) (2023-05-15T23:12:09Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - Improve SGD Training via Aligning Mini-batches [22.58823484394866]
In-Training Distribution Matching (ITDM) は、ディープニューラルネットワーク(DNN)のトレーニングを改善し、オーバーフィッティングを減らすために提案されている。
具体的には、SGDの各イテレーションにおいて、異なるミニバッチの分布のモーメントを一致させて特徴抽出器を正規化する。
論文 参考訳(メタデータ) (2020-02-23T15:10:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。