論文の概要: Depth Without the Magic: Inductive Bias of Natural Gradient Descent
- arxiv url: http://arxiv.org/abs/2111.11542v1
- Date: Mon, 22 Nov 2021 21:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 14:14:14.563600
- Title: Depth Without the Magic: Inductive Bias of Natural Gradient Descent
- Title(参考訳): 魔法のない深さ:自然のグラディエントな輝きのインダクティブバイアス
- Authors: Anna Kerekes, Anna M\'esz\'aros, Ferenc Husz\'ar
- Abstract要約: 勾配降下では、モデルをパラメータ化する方法を変えることで、大幅に異なる最適化軌道が導かれる。
深い線形ネットワークにおける自然勾配流の挙動を,ロジスティックな損失と深い行列因数分解の下で分離可能な分類のために特徴づける。
本研究では,自然勾配降下が一般化に失敗する学習問題が存在する一方で,適切なアーキテクチャによる勾配降下が良好に動作することを示す。
- 参考スコア(独自算出の注目度): 1.020554144865699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In gradient descent, changing how we parametrize the model can lead to
drastically different optimization trajectories, giving rise to a surprising
range of meaningful inductive biases: identifying sparse classifiers or
reconstructing low-rank matrices without explicit regularization. This implicit
regularization has been hypothesised to be a contributing factor to good
generalization in deep learning. However, natural gradient descent is
approximately invariant to reparameterization, it always follows the same
trajectory and finds the same optimum. The question naturally arises: What
happens if we eliminate the role of parameterization, which solution will be
found, what new properties occur? We characterize the behaviour of natural
gradient flow in deep linear networks for separable classification under
logistic loss and deep matrix factorization. Some of our findings extend to
nonlinear neural networks with sufficient but finite over-parametrization. We
demonstrate that there exist learning problems where natural gradient descent
fails to generalize, while gradient descent with the right architecture
performs well.
- Abstract(参考訳): 勾配降下では、モデルをパラメータ化する方法を変えることで、大幅に異なる最適化軌道が生まれ、スパース分類器の同定や、明示的な正規化なしに低ランク行列の再構成といった、驚くほど有意義な帰納バイアスが発生する。
この暗黙の正規化は、ディープラーニングの優れた一般化に寄与する要因であると仮定されている。
しかし、自然勾配降下は再パラメータ化にほぼ不変であり、常に同じ軌道をたどり、同じ最適を求める。
パラメータ化の役割をなくしたらどうなるのか、どの解決策が見つかるのか、新しい特性はどうなるのか?
深い線形ネットワークにおける自然勾配流の挙動を,ロジスティックな損失と深い行列因数分解の下で分離可能な分類のために特徴づける。
以上の結果から, 十分だが過度な過度な非線形ニューラルネットワークが得られた。
自然勾配降下が一般化に失敗し、適切なアーキテクチャを持つ勾配降下がうまく機能する学習問題が存在することを実証する。
関連論文リスト
- On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - More is Less: Inducing Sparsity via Overparameterization [2.885175627590247]
ディープラーニングでは、ニューラルネットワークを過度にパラメータ化する、すなわち、トレーニングサンプルよりも多くのパラメータを使用することが一般的である。
驚くほど驚くべきことに、(確率的な)勾配勾配によるニューラルネットワークを一般化すると、それは非常にうまく行く。
我々の証明は、流れのあるブレグマンの発散を分析することに依存している。
論文 参考訳(メタデータ) (2021-12-21T07:55:55Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z) - Coherent Gradients: An Approach to Understanding Generalization in
Gradient Descent-based Optimization [15.2292571922932]
本稿では,勾配降下のダイナミクスに関する仮説に基づいて,この問題に答えるアプローチを提案する。
トレーニング中のネットワークパラメータの変更は、(局所的に)同時に多くのサンプルに役立つものに偏っていることを示す。
論文 参考訳(メタデータ) (2020-02-25T03:59:31Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。