論文の概要: Continuous vs. Discrete Optimization of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2107.06608v1
- Date: Wed, 14 Jul 2021 10:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:24:10.675180
- Title: Continuous vs. Discrete Optimization of Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークの連続対離散最適化
- Authors: Omer Elkabetz and Nadav Cohen
- Abstract要約: 均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
- 参考スコア(独自算出の注目度): 15.508460240818575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing analyses of optimization in deep learning are either continuous,
focusing on (variants of) gradient flow, or discrete, directly treating
(variants of) gradient descent. Gradient flow is amenable to theoretical
analysis, but is stylized and disregards computational efficiency. The extent
to which it represents gradient descent is an open question in deep learning
theory. The current paper studies this question. Viewing gradient descent as an
approximate numerical solution to the initial value problem of gradient flow,
we find that the degree of approximation depends on the curvature along the
latter's trajectory. We then show that over deep neural networks with
homogeneous activations, gradient flow trajectories enjoy favorable curvature,
suggesting they are well approximated by gradient descent. This finding allows
us to translate an analysis of gradient flow over deep linear neural networks
into a guarantee that gradient descent efficiently converges to global minimum
almost surely under random initialization. Experiments suggest that over simple
deep neural networks, gradient descent with conventional step size is indeed
close to the continuous limit. We hypothesize that the theory of gradient flows
will be central to unraveling mysteries behind deep learning.
- Abstract(参考訳): 深層学習における最適化の既存の分析は連続的であり、勾配流の変分に焦点を当てているか、勾配降下を直接扱う(変分)かのどちらかである。
勾配流は理論解析に適しているが、スタイリゼーションされ、計算効率を無視している。
勾配降下を表わす程度は、深層学習理論において明らかな問題である。
現在の論文はこの問題を研究している。
勾配流の初期値問題に対する近似数値解としての勾配降下を見て, 近似の程度は, 勾配流の軌跡に沿った曲率に依存することがわかった。
さらに,均質なアクティベーションを持つディープニューラルネットワーク上では,勾配流の軌跡が好適な曲率を示し,勾配降下によって近似されることを示す。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、ほぼ確実にランダムな初期化の下で、勾配降下が大域最小まで効率的に収束することを保証できる。
実験によると、単純なディープニューラルネットワークよりも、従来のステップサイズでの勾配降下は、確かに連続的な限界に近い。
勾配流の理論は、深層学習の背後にある謎を解き放つ中心となると仮定する。
関連論文リスト
- On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Neural gradients are near-lognormal: improved quantized and sparse
training [35.28451407313548]
神経勾配の分布は概ね対数正規である。
神経勾配の計算と記憶の負担を軽減するための2つの閉形式解析法を提案する。
我々の知る限り,本論文は,(1)6ビット浮動小数点形式への勾配の定量化,あるいは(2)精度の低い場合において,最大85%の勾配間隔を達成した最初の論文である。
論文 参考訳(メタデータ) (2020-06-15T07:00:15Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。