論文の概要: The smooth output assumption, and why deep networks are better than wide
ones
- arxiv url: http://arxiv.org/abs/2211.14347v1
- Date: Fri, 25 Nov 2022 19:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 19:16:38.556010
- Title: The smooth output assumption, and why deep networks are better than wide
ones
- Title(参考訳): スムーズな出力仮定とディープ・ネットワークがワイド・ネットワークより優れている理由
- Authors: Luis Sa-Couto, Jose Miguel Ramos, Andreas Wichert
- Abstract要約: モデルがどのように一般化するかを予測する新しい尺度を提案する。
現実には、概念間の境界が一般に形骸化していないという事実に基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When several models have similar training scores, classical model selection
heuristics follow Occam's razor and advise choosing the ones with least
capacity. Yet, modern practice with large neural networks has often led to
situations where two networks with exactly the same number of parameters score
similar on the training set, but the deeper one generalizes better to unseen
examples. With this in mind, it is well accepted that deep networks are
superior to shallow wide ones. However, theoretically there is no difference
between the two. In fact, they are both universal approximators.
In this work we propose a new unsupervised measure that predicts how well a
model will generalize. We call it the output sharpness, and it is based on the
fact that, in reality, boundaries between concepts are generally unsharp. We
test this new measure on several neural network settings, and architectures,
and show how generally strong the correlation is between our metric, and test
set performance.
Having established this measure, we give a mathematical probabilistic
argument that predicts network depth to be correlated with our proposed
measure. After verifying this in real data, we are able to formulate the key
argument of the work: output sharpness hampers generalization; deep networks
have an in built bias against it; therefore, deep networks beat wide ones.
All in all the work not only provides a helpful predictor of overfitting that
can be used in practice for model selection (or even regularization), but also
provides a much needed theoretical grounding for the success of modern deep
neural networks.
- Abstract(参考訳): 複数のモデルが類似のトレーニングスコアを持つ場合、古典的なモデル選択ヒューリスティックはoccamのカミソリに従い、最小容量のモデルを選択することを推奨する。
しかし、大規模なニューラルネットワークによる現代的な実践は、トレーニングセットと全く同じ数のパラメータを持つ2つのネットワークのスコアが同じである状況につながることが多い。
このことを念頭に置いて、深層ネットワークは浅い幅のネットワークよりも優れているという認識が有力である。
しかし、理論的には両者の間に違いはない。
実際、どちらも普遍近似である。
本研究では,モデルがいかに一般化するかを予測する新しい教師なし尺度を提案する。
アウトプット・シャープネス(output sharpness)と呼び、実際には概念間の境界が一般的に非シャープであるという事実に基づいています。
この新しい尺度は、いくつかのニューラルネットワーク設定とアーキテクチャでテストし、メトリックとテストセットのパフォーマンスの相関関係が一般的に強いことを示す。
この測度を確立し、提案した測度と相関するネットワーク深度を予測する数学的確率論を導出する。
実際のデータでこれを検証した後、作業の重要な議論を定式化することができる: 出力シャープネスは一般化を阻害し、ディープネットワークはそれに対するバイアスが組み込まれている。
すべての作業において、モデル選択(あるいは正規化)に実際に使用できるオーバーフィッティングの有用な予測器を提供するだけでなく、現代のディープニューラルネットワークの成功に必要とされる理論基盤を提供する。
関連論文リスト
- Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - Network Degeneracy as an Indicator of Training Performance: Comparing
Finite and Infinite Width Angle Predictions [3.04585143845864]
ネットワークの深層化が進むにつれ、ネットワークは縮退しやすくなっている。
完全に接続されたReLUネットワークアーキテクチャのデジェネリシーのレベルを正確に予測できる単純なアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-06-02T13:02:52Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Wide and Deep Neural Networks Achieve Optimality for Classification [23.738242876364865]
我々は、最適性を達成するニューラルネットワーク分類器の明示的な集合を同定し、構築する。
特に、最適性を実現するネットワーク構築に使用できる明示的なアクティベーション関数を提供する。
その結果,過度な深度が有害な回帰タスクとは対照的に,分類タスクにディープネットワークを使用することの利点が浮き彫りになった。
論文 参考訳(メタデータ) (2022-04-29T14:27:42Z) - On the Compression of Natural Language Models [0.0]
我々は、量子化、知識蒸留、プルーニングといった最先端の圧縮技術についてレビューする。
本研究の目的は、自然言語モデル(NLM)にそのような訓練可能なサブネットワークが存在するかどうかを評価することである。
論文 参考訳(メタデータ) (2021-12-13T08:14:21Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - The Low-Rank Simplicity Bias in Deep Networks [46.79964271742486]
我々は、ディープネットワークが帰納的にバイアスを受けているという仮説を調査し、拡張する実験的な観察を行い、低い有効ランク埋め込みの解を見つける。
我々の主張は、実践的な学習パラダイム上の有限幅線形および非線形モデルに真であることを示すとともに、自然データ上では、これらがよく一般化される解であることを示す。
論文 参考訳(メタデータ) (2021-03-18T17:58:02Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - ESPN: Extremely Sparse Pruned Networks [50.436905934791035]
簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現することができることを示す。
本アルゴリズムは,シングルショット・ネットワーク・プルーニング法とロッテ・ティケット方式のハイブリッド・アプローチを示す。
論文 参考訳(メタデータ) (2020-06-28T23:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。