論文の概要: Bias of Stochastic Gradient Descent or the Architecture: Disentangling the Effects of Overparameterization of Neural Networks
- arxiv url: http://arxiv.org/abs/2407.03848v1
- Date: Thu, 4 Jul 2024 11:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:22:43.812393
- Title: Bias of Stochastic Gradient Descent or the Architecture: Disentangling the Effects of Overparameterization of Neural Networks
- Title(参考訳): 確率的勾配線あるいはアーキテクチャのバイアス:ニューラルネットワークの過度パラメータ化の影響を解消する
- Authors: Amit Peleg, Matthias Hein,
- Abstract要約: 本稿では,学習ミスをゼロにするランダムネットワークとSGD最適化ネットワークを研究することによって,一般化に影響を与える要因を解消することを目的とする。
実験により, 低試料状態下では, 幅の増大によるパラメータ化が一般化に有用であることが確認された。
深度を増大させるため、パラメータ化は一般化には有害であるが、ランダムおよびSGD最適化ネットワークも同様に振る舞うので、これはアーキテクチャ上のバイアスに起因する。
- 参考スコア(独自算出の注目度): 37.02386277426315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks typically generalize well when fitting the data perfectly, even though they are heavily overparameterized. Many factors have been pointed out as the reason for this phenomenon, including an implicit bias of stochastic gradient descent (SGD) and a possible simplicity bias arising from the neural network architecture. The goal of this paper is to disentangle the factors that influence generalization stemming from optimization and architectural choices by studying random and SGD-optimized networks that achieve zero training error. We experimentally show, in the low sample regime, that overparameterization in terms of increasing width is beneficial for generalization, and this benefit is due to the bias of SGD and not due to an architectural bias. In contrast, for increasing depth, overparameterization is detrimental for generalization, but random and SGD-optimized networks behave similarly, so this can be attributed to an architectural bias. For more information, see https://bias-sgd-or-architecture.github.io .
- Abstract(参考訳): ニューラルネットワークは、過度にパラメータ化されているにもかかわらず、データを完璧に適合させるときによく一般化する。
この現象の原因として、確率勾配降下(SGD)の暗黙バイアスや、ニューラルネットワークアーキテクチャから生じる単純さバイアスなど、多くの要因が指摘されている。
本研究の目的は、学習ミスをゼロにするランダムネットワークとSGD最適化ネットワークを研究することによって、最適化とアーキテクチャ選択から生じる一般化に影響を与える要因を解消することである。
実験により, 低試料状態下では, 幅の増大による過度パラメータ化が一般化に有用であることを示し, この利点はSGDの偏りによるものであり, アーキテクチャ上の偏りによるものではないことを示した。
対照的に、深度を増大させるため、過パラメータ化は一般化には有害であるが、ランダムおよびSGD最適化ネットワークも同様に振る舞うので、これはアーキテクチャ上のバイアスによるものである。
詳細はhttps://bias-sgd-or-architecture.github.io を参照してください。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Automatic Gradient Descent: Deep Learning without Hyperparameters [35.350274248478804]
ディープニューラルネットワークのアーキテクチャは、レイヤ数、各レイヤの幅、一般的なネットワークトポロジの観点から明確に定義される。
グラデーション・アイデアは、神経アーキテクチャの非勾配構造を考慮するために、ブレグマンの発散を変換することである。
論文 参考訳(メタデータ) (2023-04-11T12:45:52Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Improving deep neural network generalization and robustness to
background bias via layer-wise relevance propagation optimization [0.0]
画像の背景の特徴は、背景バイアスを表す画像のクラスと飛躍的に相関する。
標準的な評価データセットでうまく機能するが、現実のデータにはあまり一般化しないディープニューラルネットワーク(DNN)。
本研究では, LRPヒートマップの最適化により, 背景バイアスの影響を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2022-02-01T05:58:01Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - On the Implicit Biases of Architecture & Gradient Descent [46.34988166338264]
本稿では、トレーニングデータに適合する典型的なネットワークは、既にかなり一般化されているが、勾配降下は、大きなマージンを持つネットワークを選択することにより、さらに一般化を向上させることができることを見出した。
新しい技術ツールは、アーキテクチャの暗黙のバイアスと勾配降下の両方を含む一般化の微妙なポートレートを示唆している。
論文 参考訳(メタデータ) (2021-10-08T17:36:37Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Inductive Bias of Gradient Descent for Exponentially Weight Normalized
Smooth Homogeneous Neural Nets [1.7259824817932292]
我々は,指数的あるいはクロスエントロピー損失のトレーニングにおいて,重み付き平滑な均質ニューラルネットの勾配降下の誘導バイアスを解析した。
本稿では,EWNを用いた勾配流路が適応学習率の標準ネットワーク上での勾配流と等価であることを示す。
論文 参考訳(メタデータ) (2020-10-24T14:34:56Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。