論文の概要: Corridor Geometry in Gradient-Based Optimization
- arxiv url: http://arxiv.org/abs/2402.08818v1
- Date: Tue, 13 Feb 2024 21:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:31:27.563891
- Title: Corridor Geometry in Gradient-Based Optimization
- Title(参考訳): 勾配最適化における廊下形状
- Authors: Benoit Dherin and Mihaela Rosca
- Abstract要約: 廊下は、勾配降下と勾配流が同じ軌跡をたどる領域であることを示す。
廊下における損失線形減少を利用して、勾配降下に対する学習率適応方式を考案する。
- 参考スコア(独自算出の注目度): 11.177186975058047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We characterize regions of a loss surface as corridors when the continuous
curves of steepest descent -- the solutions of the gradient flow -- become
straight lines. We show that corridors provide insights into gradient-based
optimization, since corridors are exactly the regions where gradient descent
and the gradient flow follow the same trajectory, while the loss decreases
linearly. As a result, inside corridors there are no implicit regularization
effects or training instabilities that have been shown to occur due to the
drift between gradient descent and the gradient flow. Using the loss linear
decrease on corridors, we devise a learning rate adaptation scheme for gradient
descent; we call this scheme Corridor Learning Rate (CLR). The CLR formulation
coincides with a special case of Polyak step-size, discovered in the context of
convex optimization. The Polyak step-size has been shown recently to have also
good convergence properties for neural networks; we further confirm this here
with results on CIFAR-10 and ImageNet.
- Abstract(参考訳): 我々は、勾配流の解である最も急勾配の連続曲線が直線になるとき、損失面の領域を廊下として特徴づける。
回廊は、勾配降下と勾配流れが同じ軌道をたどる領域であり、損失は直線的に減少するので、回廊は勾配に基づく最適化に対する洞察を与える。
その結果、廊下内部には勾配降下と勾配流の間のドリフトによって生じる暗黙の規則化効果や訓練不安定性は存在しない。
廊下における損失線形減少を利用して、勾配降下に対する学習率適応スキームを考案し、このスキームをCLR(Corridor Learning Rate)と呼ぶ。
CLRの定式化は、凸最適化の文脈で発見されたPolyakのステップサイズという特殊なケースと一致する。
polyakのステップサイズはニューラルネットワークにも優れた収束性があることが最近示されている。
関連論文リスト
- How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Implicit Gradient Regularization [18.391141066502644]
勾配降下は、過度に適合せず、明示的な正規化もなく、ディープニューラルネットワークを最適化するのに驚くほど適しています。
我々はImplicit Gradient Regularization (IGR)と呼び、後方誤差解析を用いて正規化のサイズを計算する。
論文 参考訳(メタデータ) (2020-09-23T14:17:53Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。