論文の概要: On the Implicit Biases of Architecture & Gradient Descent
- arxiv url: http://arxiv.org/abs/2110.04274v1
- Date: Fri, 8 Oct 2021 17:36:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 13:53:24.825829
- Title: On the Implicit Biases of Architecture & Gradient Descent
- Title(参考訳): 建築と勾配降下の暗黙のバイアスについて
- Authors: Jeremy Bernstein and Yisong Yue
- Abstract要約: 本稿では、トレーニングデータに適合する典型的なネットワークは、既にかなり一般化されているが、勾配降下は、大きなマージンを持つネットワークを選択することにより、さらに一般化を向上させることができることを見出した。
新しい技術ツールは、アーキテクチャの暗黙のバイアスと勾配降下の両方を含む一般化の微妙なポートレートを示唆している。
- 参考スコア(独自算出の注目度): 46.34988166338264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do neural networks generalise because of bias in the functions returned by
gradient descent, or bias already present in the network architecture? Por
qu\'e no los dos?
This paper finds that while typical networks that fit the training data
already generalise fairly well, gradient descent can further improve
generalisation by selecting networks with a large margin. This conclusion is
based on a careful study of the behaviour of infinite width networks trained by
Bayesian inference and finite width networks trained by gradient descent. To
measure the implicit bias of architecture, new technical tools are developed to
both analytically bound and consistently estimate the average test error of the
neural network--Gaussian process (NNGP) posterior. This error is found to be
already better than chance, corroborating the findings of Valle-P\'erez et al.
(2019) and underscoring the importance of architecture. Going beyond this
result, this paper finds that test performance can be substantially improved by
selecting a function with much larger margin than is typical under the NNGP
posterior. This highlights a curious fact: minimum a posteriori functions can
generalise best, and gradient descent can select for those functions. In
summary, new technical tools suggest a nuanced portrait of generalisation
involving both the implicit biases of architecture and gradient descent.
Code for this paper is available at: https://github.com/jxbz/implicit-bias/.
- Abstract(参考訳): ニューラルネットワークは、勾配降下によって返される関数のバイアス、あるいはネットワークアーキテクチャにすでに存在するバイアスによって一般化されるか?
Por qu'e no los dos?
本稿では,トレーニングデータに適合する典型的なネットワークが十分に一般化されているのに対して,勾配降下はマージンが大きいネットワークを選択することで一般化をさらに改善できることを示す。
この結論は、ベイズ推定によって訓練された無限幅ネットワークと勾配降下によって訓練された有限幅ネットワークの挙動を注意深く研究することに基づいている。
アーキテクチャの暗黙のバイアスを測定するために、ニューラルネットワーク-ゲージプロセス(nngp)の後方での平均テストエラーを解析的にバインドし、一貫して見積もる新しい技術ツールが開発されている。
この誤りはすでに偶然よりも優れており、valle-p\'erez et al. (2019) の発見とアーキテクチャの重要性を裏付けている。
この結果以上の結果から,nngp後方の通常よりも大きなマージンを持つ関数を選択すれば,テスト性能が大幅に向上する可能性が示唆された。
最小の a posteriori 関数は最善を一般化し、勾配降下はそれらの関数を選択できる。
まとめると、新しい技術ツールは、アーキテクチャの暗黙のバイアスと勾配降下の両方を含む一般化の微妙なポートレートを示唆している。
この論文のコードは、https://github.com/jxbz/implicit-bias/で公開されている。
関連論文リスト
- Bias of Stochastic Gradient Descent or the Architecture: Disentangling the Effects of Overparameterization of Neural Networks [37.02386277426315]
本稿では,学習ミスをゼロにするランダムネットワークとSGD最適化ネットワークを研究することによって,一般化に影響を与える要因を解消することを目的とする。
実験により, 低試料状態下では, 幅の増大によるパラメータ化が一般化に有用であることが確認された。
深度を増大させるため、パラメータ化は一般化には有害であるが、ランダムおよびSGD最適化ネットワークも同様に振る舞うので、これはアーキテクチャ上のバイアスに起因する。
論文 参考訳(メタデータ) (2024-07-04T11:29:50Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Automatic Gradient Descent: Deep Learning without Hyperparameters [35.350274248478804]
ディープニューラルネットワークのアーキテクチャは、レイヤ数、各レイヤの幅、一般的なネットワークトポロジの観点から明確に定義される。
グラデーション・アイデアは、神経アーキテクチャの非勾配構造を考慮するために、ブレグマンの発散を変換することである。
論文 参考訳(メタデータ) (2023-04-11T12:45:52Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。