論文の概要: Over-parametrized neural networks as under-determined linear systems
- arxiv url: http://arxiv.org/abs/2010.15959v1
- Date: Thu, 29 Oct 2020 21:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:34:56.992338
- Title: Over-parametrized neural networks as under-determined linear systems
- Title(参考訳): 非決定線形系としての過パラメータニューラルネットワーク
- Authors: Austin R. Benson, Anil Damle, Alex Townsend
- Abstract要約: 単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
- 参考スコア(独自算出の注目度): 31.69089186688224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We draw connections between simple neural networks and under-determined
linear systems to comprehensively explore several interesting theoretical
questions in the study of neural networks. First, we emphatically show that it
is unsurprising such networks can achieve zero training loss. More
specifically, we provide lower bounds on the width of a single hidden layer
neural network such that only training the last linear layer suffices to reach
zero training loss. Our lower bounds grow more slowly with data set size than
existing work that trains the hidden layer weights. Second, we show that
kernels typically associated with the ReLU activation function have fundamental
flaws -- there are simple data sets where it is impossible for widely studied
bias-free models to achieve zero training loss irrespective of how the
parameters are chosen or trained. Lastly, our analysis of gradient descent
clearly illustrates how spectral properties of certain matrices impact both the
early iteration and long-term training behavior. We propose new activation
functions that avoid the pitfalls of ReLU in that they admit zero training loss
solutions for any set of distinct data points and experimentally exhibit
favorable spectral properties.
- Abstract(参考訳): 我々は、単純なニューラルネットワークと未決定線形システムとの接続を描き、ニューラルネットワークの研究におけるいくつかの興味深い理論的疑問を包括的に探究する。
まず、そのようなネットワークがトレーニング損失をゼロにできるのは予想外であることを示す。
より具体的には、最後の線形層のみをトレーニングしてトレーニング損失をゼロにする、単一の隠れ層ニューラルネットワークの幅の低い境界を提供する。
私たちの低い境界は、隠れたレイヤの重みをトレーニングする既存の作業よりもデータセットのサイズでゆっくりと成長します。
第2に、一般的にreluアクティベーション関数に関連するカーネルには根本的な欠陥があることを示します -- パラメータの選択やトレーニング方法に関わらず、広く研究されているバイアスフリーモデルがトレーニング損失をゼロにすることは不可能です。
最後に,勾配降下解析により,特定の行列のスペクトル特性が初期反復行動と長期トレーニング行動の両方にどのように影響するかを明らかにする。
我々は,reluの落とし穴を回避し,任意の異なるデータ点のトレーニング損失をゼロにし,良好なスペクトル特性を実験的に示す新たな活性化関数を提案する。
関連論文リスト
- Wide Neural Networks Trained with Weight Decay Provably Exhibit Neural Collapse [32.06666853127924]
収束時のディープニューラルネットワーク(DNN)は、ニューラル崩壊と呼ばれる対称的な幾何学構造を通して、最終層のトレーニングデータを一貫して表現している。
ここでは、垂直層の特徴は自由変数であり、モデルがデータに依存しないため、トレーニングをキャプチャする能力に疑問を呈する。
まず, (i) 線形層の低トレーニング誤差とバランス性, (ii) 線形部の前の特徴の有界条件付けを前提とした神経崩壊に関する一般的な保証を示す。
論文 参考訳(メタデータ) (2024-10-07T10:16:40Z) - Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias
for Correlated Inputs [5.7166378791349315]
我々は、単一ニューロンを学習する基本的な回帰タスクとして、1つの隠れた層ReLUネットワークをトレーニングすると、損失がゼロとなることを証明した。
また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。
論文 参考訳(メタデータ) (2023-06-10T16:36:22Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。