論文の概要: Bayesian Free Energy of Deep ReLU Neural Network in Overparametrized
Cases
- arxiv url: http://arxiv.org/abs/2303.15739v1
- Date: Tue, 28 Mar 2023 05:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:21:18.452942
- Title: Bayesian Free Energy of Deep ReLU Neural Network in Overparametrized
Cases
- Title(参考訳): オーバーパラメトリズドケースにおける深部ReLUニューラルネットワークのベイズ自由エネルギー
- Authors: Shuya Nagayasu, Sumio Watanabe
- Abstract要約: オーバーパラメトリズドケースにおける深部ReLUニューラルネットワークについて検討する。
本研究では,深いReLUニューラルネットワークが十分に大きい設計であっても,ベイズ一般化誤差は増大しないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many research fields in artificial intelligence, it has been shown that
deep neural networks are useful to estimate unknown functions on high
dimensional input spaces. However, their generalization performance is not yet
completely clarified from the theoretical point of view because they are
nonidentifiable and singular learning machines. Moreover, a ReLU function is
not differentiable, to which algebraic or analytic methods in singular learning
theory cannot be applied. In this paper, we study a deep ReLU neural network in
overparametrized cases and prove that the Bayesian free energy, which is equal
to the minus log marginal likelihoodor the Bayesian stochastic complexity, is
bounded even if the number of layers are larger than necessary to estimate an
unknown data-generating function. Since the Bayesian generalization error is
equal to the increase of the free energy as a function of a sample size, our
result also shows that the Bayesian generalization error does not increase even
if a deep ReLU neural network is designed to be sufficiently large or in an
opeverparametrized state.
- Abstract(参考訳): 人工知能の多くの研究分野において、深層ニューラルネットワークは高次元入力空間上で未知の関数を推定するのに有用であることが示されている。
しかし、その一般化性能は、識別不能で特異な学習機械であるため、理論的な観点からはまだ完全には解明されていない。
さらに、ReLU関数は微分不可能であり、特異学習理論における代数的あるいは解析的手法は適用できない。
本稿では,過度にパラメータ化された場合の深部ReLUニューラルネットワークについて検討し,未知のデータ生成関数を推定するために必要な層数より大きい場合においても,ベイズ自由エネルギーがベイズ確率のマイナス対数限界確率に等しいことを証明した。
ベイジアン一般化誤差は標本サイズの関数としての自由エネルギーの増加と等しいため, 深部ReLUニューラルネットワークが十分に大きければ, あるいは超並列化状態であってもベイジアン一般化誤差は増加しないことを示す。
関連論文リスト
- Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize [5.642322814965062]
分散シフトの下で一般化される学習表現は、堅牢な機械学習モデルを構築する上で重要である。
ニューラルネットワークを教師ネットワークから得られる表現に明示的に適合させることさえ、学生ネットワークの一般化には不十分であることを示す。
論文 参考訳(メタデータ) (2024-06-05T15:04:27Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Correlation between entropy and generalizability in a neural network [9.223853439465582]
We use Wang-Landau Mote Carlo algorithm to compute the entropy at a specified test accuracy。
この結果から,エントロピック力は一般化に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-07-05T12:28:13Z) - Optimal Learning Rates of Deep Convolutional Neural Networks: Additive
Ridge Functions [19.762318115851617]
深部畳み込みニューラルネットワークにおける平均2乗誤差解析について考察する。
付加的なリッジ関数に対しては、畳み込みニューラルネットワークとReLUアクティベーション関数を併用した1つの完全連結層が最適極小値に到達できることが示される。
論文 参考訳(メタデータ) (2022-02-24T14:22:32Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - A Sparse Coding Interpretation of Neural Networks and Theoretical
Implications [0.0]
深層畳み込みニューラルネットワークは、様々なコンピュータビジョンタスクにおいて前例のない性能を達成した。
本稿では、ReLUアクティベーションを持つニューラルネットワークのスパース符号化解釈を提案する。
正規化やプーリングなしに完全な畳み込みニューラルネットワークを導出する。
論文 参考訳(メタデータ) (2021-08-14T21:54:47Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。