論文の概要: A Note on the Implicit Bias Towards Minimal Depth of Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2202.09028v1
- Date: Fri, 18 Feb 2022 05:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 20:21:15.257308
- Title: A Note on the Implicit Bias Towards Minimal Depth of Deep Neural
Networks
- Title(参考訳): 深層ニューラルネットワークの最小深度に対する暗黙的バイアスについての一考察
- Authors: Tomer Galanti
- Abstract要約: これらのシステムの成功を可能にする中心的な側面は、広い浅いものではなく、深いモデルを訓練する能力である。
深層ニューラルネットワークのトレーニングは、浅いニューラルネットワークに対して繰り返し、優れたパフォーマンスを達成する一方で、表現学習における深度の役割の理解はいまだに欠如している。
- 参考スコア(独自算出の注目度): 11.739219085726006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning systems have steadily advanced the state of the art in a wide
variety of benchmarks, demonstrating impressive performance in tasks ranging
from image classification \citep{taigman2014deepface,zhai2021scaling}, language
processing \citep{devlin-etal-2019-bert,NEURIPS2020_1457c0d6}, open-ended
environments \citep{SilverHuangEtAl16nature,arulkumaran2019alphastar}, to
coding \citep{chen2021evaluating}.
A central aspect that enables the success of these systems is the ability to
train deep models instead of wide shallow ones \citep{7780459}. Intuitively, a
neural network is decomposed into hierarchical representations from raw data to
high-level, more abstract features. While training deep neural networks
repetitively achieves superior performance against their shallow counterparts,
an understanding of the role of depth in representation learning is still
lacking.
In this work, we suggest a new perspective on understanding the role of depth
in deep learning. We hypothesize that {\bf\em SGD training of overparameterized
neural networks exhibits an implicit bias that favors solutions of minimal
effective depth}. Namely, SGD trains neural networks for which the top several
layers are redundant. To evaluate the redundancy of layers, we revisit the
recently discovered phenomenon of neural collapse
\citep{Papyan24652,han2021neural}.
- Abstract(参考訳): ディープラーニングシステムは、さまざまなベンチマークで技術の現状を着実に前進させており、画像分類 \citep{taigman2014deepface,zhai2021scaling}、言語処理 \citep{devlin-etal-2019-bert,NEURIPS 2020_1457c0d6}、オープンな環境 \citep{SilverHuangEtAl16nature,arulkumaran2019alphastar}、コーディング \citep{chen2021evaluating}といったタスクで顕著なパフォーマンスを示している。
これらのシステムの成功を可能にする中心的な側面は、広い浅いものの代わりに深いモデルを訓練する能力である。
直感的には、ニューラルネットワークは生データからハイレベルでより抽象的な特徴まで階層的な表現に分解される。
深層ニューラルネットワークのトレーニングは、浅いニューラルネットワークに対して繰り返し、優れたパフォーマンスを達成する一方で、表現学習における深度の役割の理解はいまだに欠如している。
本研究では,深層学習における深層学習の役割を理解するための新しい視点を提案する。
我々は、過パラメータ化されたニューラルネットワークのSGDトレーニングは、最小有効深さの解を好む暗黙のバイアスを示すと仮定する。
すなわち、SGDは、上位数層が冗長であるニューラルネットワークを訓練する。
層の冗長性を評価するために,最近発見された神経崩壊現象を再考する。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Exact Solutions of a Deep Linear Network [2.2344764434954256]
この研究は、重み減衰とニューロンを持つディープ線形ネットワークの大域的ミニマを解析的に表現することを発見した。
重み減衰はモデルアーキテクチャと強く相互作用し、1ドル以上の隠蔽層を持つネットワークにおいてゼロで悪いミニマを生成できることを示す。
論文 参考訳(メタデータ) (2022-02-10T00:13:34Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - A Layer-Wise Information Reinforcement Approach to Improve Learning in
Deep Belief Networks [0.4893345190925178]
本稿では,情報強化層を層単位で検討し,特徴抽出と知識保持を改善するResidual Deep Belief Networkを提案する。
3つの公開データセットで実施した実験は、バイナリイメージ分類のタスクに関する堅牢性を示している。
論文 参考訳(メタデータ) (2021-01-17T18:53:18Z) - Theoretical Analysis of the Advantage of Deepening Neural Networks [0.0]
ディープニューラルネットワークによって計算可能な関数の表現性を知ることが重要である。
この2つの基準により,深層ニューラルネットワークの表現性を向上させる上で,各層におけるユニットの増加よりも,レイヤの増加の方が効果的であることを示す。
論文 参考訳(メタデータ) (2020-09-24T04:10:50Z) - Locality Guided Neural Networks for Explainable Artificial Intelligence [12.435539489388708]
LGNN(Locality Guided Neural Network)と呼ばれる,バック伝搬のための新しいアルゴリズムを提案する。
LGNNはディープネットワークの各層内の隣接ニューロン間の局所性を保っている。
実験では,CIFAR100 上の画像分類のための様々な VGG と Wide ResNet (WRN) ネットワークを訓練した。
論文 参考訳(メタデータ) (2020-07-12T23:45:51Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - An Overview of Neural Network Compression [2.550900579709111]
近年、モデル圧縮技術、特に深層畳み込みニューラルネットワークやTransformerのような自己注意型ネットワークの復活が進んでいる。
本稿では, プルーニング, 量子化, テンソル分解, 知識蒸留, それらの組み合わせを含む, ディープニューラルネットワークの古い圧縮技術と現在の圧縮技術について, タイムリーに概説する。
論文 参考訳(メタデータ) (2020-06-05T20:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。