論文の概要: Computing the Information Content of Trained Neural Networks
- arxiv url: http://arxiv.org/abs/2103.01045v1
- Date: Mon, 1 Mar 2021 14:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 15:53:37.563504
- Title: Computing the Information Content of Trained Neural Networks
- Title(参考訳): 訓練されたニューラルネットワークの情報内容の計算
- Authors: Jeremy Bernstein and Yisong Yue
- Abstract要約: トレーニングデータよりも重みを持つニューラルネットワークは、まだ一般化しているのだろうか?
本論文では,無限に広がったニューラルネットワークの情報内容に対する整合性推定器と閉形式上界の両方を導出する。
- 参考スコア(独自算出の注目度): 46.34988166338264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How much information does a learning algorithm extract from the training data
and store in a neural network's weights? Too much, and the network would
overfit to the training data. Too little, and the network would not fit to
anything at all. Na\"ively, the amount of information the network stores should
scale in proportion to the number of trainable weights. This raises the
question: how can neural networks with vastly more weights than training data
still generalise? A simple resolution to this conundrum is that the number of
weights is usually a bad proxy for the actual amount of information stored. For
instance, typical weight vectors may be highly compressible. Then another
question occurs: is it possible to compute the actual amount of information
stored? This paper derives both a consistent estimator and a closed-form upper
bound on the information content of infinitely wide neural networks. The
derivation is based on an identification between neural information content and
the negative log probability of a Gaussian orthant. This identification yields
bounds that analytically control the generalisation behaviour of the entire
solution space of infinitely wide networks. The bounds have a simple dependence
on both the network architecture and the training data. Corroborating the
findings of Valle-P\'erez et al. (2019), who conducted a similar analysis using
approximate Gaussian integration techniques, the bounds are found to be both
non-vacuous and correlated with the empirical generalisation behaviour at
finite width.
- Abstract(参考訳): 学習アルゴリズムはトレーニングデータからどの程度情報を抽出し、ニューラルネットワークの重みに格納するのでしょうか?
あまりに多すぎると、ネットワークはトレーニングデータに過度に適合する。
あまりに少なすぎると、ネットワークは何も収まらないでしょう。
Na\" は、ネットワークが格納する情報の量は、訓練可能なウェイト数に比例して拡張されるべきである。
トレーニングデータよりもはるかに重い重みを持つニューラルネットワークが、どのように一般化されるのか?
この混乱に対する単純な解決法は、重みの数は、保存される実際の情報の量に対する悪いプロキシであるということである。
例えば、典型的な重みベクトルは高い圧縮性を持つ。
その後、別の質問が発生します:保存された情報の実際の量を計算できますか?
本論文では,無限に広がったニューラルネットワークの情報内容に対する整合性推定器と閉形式上界の両方を導出する。
導出は、神経情報の内容とガウス正則の負のログ確率の間の識別に基づいている。
この同定は無限に広いネットワークの解空間全体の一般化挙動を解析的に制御する境界を与える。
境界は、ネットワークアーキテクチャとトレーニングデータの両方に単純な依存を持っています。
Valle-P\'erezらの発見を裏付ける。
(2019) 近似ガウス積分法を用いて同様の解析を行い, 境界は空でないこと, 有限幅での経験的一般化行動と相関することが判明した。
関連論文リスト
- Fundamental limits of overparametrized shallow neural networks for
supervised learning [11.136777922498355]
本研究では,教師ネットワークが生成した入力-出力ペアから学習した2層ニューラルネットワークについて検討する。
この結果は,トレーニングデータとネットワーク重み間の相互情報,すなわちベイズ最適一般化誤差に関連する境界の形で得られる。
論文 参考訳(メタデータ) (2023-07-11T08:30:50Z) - Dive into Layers: Neural Network Capacity Bounding using Algebraic
Geometry [55.57953219617467]
ニューラルネットワークの学習性はそのサイズと直接関連していることを示す。
入力データとニューラルネットワークのトポロジ的幾何学的複雑さを測定するためにベッチ数を用いる。
実世界のデータセットMNISTで実験を行い、分析結果と結論を検証した。
論文 参考訳(メタデータ) (2021-09-03T11:45:51Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Slope and generalization properties of neural networks [0.0]
十分に訓練されたニューラルネットワーク分類器の勾配分布は、一般に、完全に接続されたネットワークの層幅から独立していることを示す。
傾斜は、関連する体積を通して類似した大きさであり、滑らかに変化する。また、再スケーリングの例でも予測されるように振る舞う。
本稿では、損失関数の一部として利用したり、ネットワークトレーニング中に基準を終了させたり、複雑度の観点からデータセットをランク付けしたりといった、斜面概念の応用の可能性について論じる。
論文 参考訳(メタデータ) (2021-07-03T17:54:27Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Tensor networks and efficient descriptions of classical data [0.9176056742068814]
サブリージョンとその補集合間の相互情報はサブシステムサイズ$L$とどのようにスケールするかを検討する。
テキストの場合、相互情報は電力法$Lnu$としてスケールし、ボリューム法指数に近いことが分かります。
画像の場合、スケーリングは領域法則に近く、PEPSのような2次元テンソルネットワークが適切な表現性を持つ可能性があることを示唆している。
論文 参考訳(メタデータ) (2021-03-11T18:57:16Z) - A Law of Robustness for Weight-bounded Neural Networks [37.54604146791085]
最近(bubeck et al., 2020)は、k$ニューロンを持つ2層ネットワークを使ってジェネリックデータセットに適合する場合、最小のリプシッツ定数は$omega(sqrtfracnk)$であると予想した。
本研究では,任意のモデルクラスに対して,有界ラデマチャー複雑性を持つLipschitz定数の下限を導出する。
この結果は(bubeck et al., 2020)2層ネットワークにおける有界重みを仮定した予想と一致する。
論文 参考訳(メタデータ) (2021-02-16T11:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。