論文の概要: Empirically explaining SGD from a line search perspective
- arxiv url: http://arxiv.org/abs/2103.17132v1
- Date: Wed, 31 Mar 2021 14:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 20:35:38.104897
- Title: Empirically explaining SGD from a line search perspective
- Title(参考訳): 線探索から見たSGDの実証的説明
- Authors: Maximus Mutschler and Andreas Zell
- Abstract要約: 更新ステップ方向のラインに沿った全バッチ損失が極めてパラボリックであることを示す。
また、SGDが常にフルバッチロスでほぼ正確なライン検索を行う学習率があることも示しています。
- 参考スコア(独自算出の注目度): 21.35522589789314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization in Deep Learning is mainly guided by vague intuitions and strong
assumptions, with a limited understanding how and why these work in practice.
To shed more light on this, our work provides some deeper understandings of how
SGD behaves by empirically analyzing the trajectory taken by SGD from a line
search perspective. Specifically, a costly quantitative analysis of the
full-batch loss along SGD trajectories from common used models trained on a
subset of CIFAR-10 is performed. Our core results include that the full-batch
loss along lines in update step direction is highly parabolically. Further on,
we show that there exists a learning rate with which SGD always performs almost
exact line searches on the full-batch loss. Finally, we provide a different
perspective why increasing the batch size has almost the same effect as
decreasing the learning rate by the same factor.
- Abstract(参考訳): ディープラーニングの最適化は、主にあいまいな直観と強い仮定によって導かれ、これらが実際にどのように機能するかと理由を限定的に理解している。
そこで本研究では,SGD の軌道を線探索の観点から実験的に解析することにより,SGD がどのように振る舞うかをより深く理解する。
具体的には、CIFAR-10のサブセットで訓練された一般的なモデルからSGD軌道に沿ったフルバッチ損失の定量的解析を行う。
当社の中核となる結果は、更新ステップ方向のラインに沿った全バッチ損失が極めてパラボリックであることです。
さらに,SGD が常に全バッチ損失に対してほぼ正確に線探索を行う学習速度が存在することを示す。
最後に、バッチサイズの増加が、学習率を同じ要因で減少させるのとほとんど同じ効果を持つ理由について異なる視点を提供する。
関連論文リスト
- Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity [84.12126298229866]
命令チューニング中のゼロショット一般化は非常に早い時期に行われることを示す。
また、「タスク」の制約を伴わずに、命令チューニング中に非常によく似た、きめ細かなトレーニングデータに遭遇することで、より一般化できることを示す。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - When and Why Momentum Accelerates SGD:An Empirical Study [76.2666927020119]
本研究では,運動量を有する勾配降下(SGD)の性能について検討する。
運動量加速度は,更新方向に沿った方向ヘッセンの急激な跳躍を示す強調シャープニングと密接に関連していることがわかった。
モーメントは、急激な研削の発生を防止または延期することにより、SGDMの性能を向上させる。
論文 参考訳(メタデータ) (2023-06-15T09:54:21Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Using a one dimensional parabolic model of the full-batch loss to
estimate learning rates during training [21.35522589789314]
本研究は,複数のミニバッチ上で推定されるパラボラを用いて全バッチ損失を近似する線探索手法を導入する。
実験では,SGDを一定間隔の学習スケジュールで調整し,そのほとんどはSGDよりも優れていた。
論文 参考訳(メタデータ) (2021-08-31T14:36:23Z) - SGD: The Role of Implicit Regularization, Batch-size and Multiple-epochs [30.41773138781369]
本稿では,現実に一般的に用いられているグラディエント・ディファイス(SGD)のマルチエポックな変種について述べる。
最悪の場合、これはシングルパスSGDと同程度であることを示す。
SCOの特定の問題に対して、データセットに複数のパスを取ることは、シングルパスSGDを著しく上回る。
論文 参考訳(メタデータ) (2021-07-11T15:50:01Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。