論文の概要: Coherent Gradients: An Approach to Understanding Generalization in
Gradient Descent-based Optimization
- arxiv url: http://arxiv.org/abs/2002.10657v1
- Date: Tue, 25 Feb 2020 03:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:25:39.758647
- Title: Coherent Gradients: An Approach to Understanding Generalization in
Gradient Descent-based Optimization
- Title(参考訳): コヒーレント勾配:勾配勾配に基づく最適化における一般化理解へのアプローチ
- Authors: Satrajit Chatterjee
- Abstract要約: 本稿では,勾配降下のダイナミクスに関する仮説に基づいて,この問題に答えるアプローチを提案する。
トレーニング中のネットワークパラメータの変更は、(局所的に)同時に多くのサンプルに役立つものに偏っていることを示す。
- 参考スコア(独自算出の注目度): 15.2292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An open question in the Deep Learning community is why neural networks
trained with Gradient Descent generalize well on real datasets even though they
are capable of fitting random data. We propose an approach to answering this
question based on a hypothesis about the dynamics of gradient descent that we
call Coherent Gradients: Gradients from similar examples are similar and so the
overall gradient is stronger in certain directions where these reinforce each
other. Thus changes to the network parameters during training are biased
towards those that (locally) simultaneously benefit many examples when such
similarity exists. We support this hypothesis with heuristic arguments and
perturbative experiments and outline how this can explain several common
empirical observations about Deep Learning. Furthermore, our analysis is not
just descriptive, but prescriptive. It suggests a natural modification to
gradient descent that can greatly reduce overfitting.
- Abstract(参考訳): Deep Learningコミュニティのオープンな疑問は、グラディエントDescentでトレーニングされたニューラルネットワークが、ランダムなデータに適合できるにもかかわらず、実際のデータセットをうまく一般化する理由である。
類似した例からの勾配は似ているので、これらが互いに補強する特定の方向において全体的な勾配はより強くなる。
したがって、トレーニング中のネットワークパラメータの変更は、そのような類似性が存在する場合に(ローカルに)同時に多くの例に利益をもたらすものに偏っている。
我々は、この仮説をヒューリスティックな議論と摂動実験で支持し、深層学習に関するいくつかの一般的な経験的観察を説明する方法について概説する。
さらに,本分析は記述的だけでなく,記述的でもある。
これは、過度な適合を大幅に減らすことができる勾配降下に対する自然な修正を示唆している。
関連論文リスト
- Parallel Momentum Methods Under Biased Gradient Estimations [11.074080383657453]
並列勾配法は、複数のノードに分散したデータを含む大規模機械学習問題の解決において注目されている。
しかし、最も理論的な研究の焦点となっている非バイアス境界の取得は、多くの機械学習応用において困難である。
本稿では,メタラーニングにおける推定値の偏りや,勾配の圧縮や切り抜きといった特殊勾配の影響について検討する。
論文 参考訳(メタデータ) (2024-02-29T18:03:03Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - On the Overlooked Structure of Stochastic Gradients [34.650998241703626]
一方,ミニバッチトレーニングによる繰り返し勾配と勾配雑音は,通常,パワー則重尾は示さない。
我々の研究は、既存の信念に挑戦し、ディープラーニングにおける勾配の構造に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2022-12-05T07:55:22Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - The Manifold Hypothesis for Gradient-Based Explanations [55.01671263121624]
勾配に基づく説明アルゴリズムは知覚的に整合した説明を提供する。
特徴属性がデータの接する空間と一致しているほど、知覚的に一致している傾向にあることを示す。
説明アルゴリズムは、その説明をデータ多様体と整合させるよう積極的に努力すべきである。
論文 参考訳(メタデータ) (2022-06-15T08:49:24Z) - Depth Without the Magic: Inductive Bias of Natural Gradient Descent [1.020554144865699]
勾配降下では、モデルをパラメータ化する方法を変えることで、大幅に異なる最適化軌道が導かれる。
深い線形ネットワークにおける自然勾配流の挙動を,ロジスティックな損失と深い行列因数分解の下で分離可能な分類のために特徴づける。
本研究では,自然勾配降下が一般化に失敗する学習問題が存在する一方で,適切なアーキテクチャによる勾配降下が良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-22T21:20:10Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。