論文の概要: The Equilibrium Hypothesis: Rethinking implicit regularization in Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2110.11749v1
- Date: Fri, 22 Oct 2021 12:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 21:44:51.299635
- Title: The Equilibrium Hypothesis: Rethinking implicit regularization in Deep
Neural Networks
- Title(参考訳): 均衡仮説:深層ニューラルネットワークにおける暗黙の正則化再考
- Authors: Yizhang Lou, Chris Mingard, Soufiane Hayou
- Abstract要約: 現代のDeep Neural Networks (DNN) は、明示的な正規化を伴わない様々なタスクにおいて、印象的な一般化特性を示す。
Baratin et al. (2021) による最近の研究は、興味深い暗黙の正規化効果に光を当て、いくつかの層が他の層よりもはるかにデータラベルと整合していることを示している。
このことは、ネットワークの深さと幅が大きくなるにつれて、トレーニング中に暗黙の層選択現象が発生することを示唆している。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Deep Neural Networks (DNNs) exhibit impressive generalization
properties on a variety of tasks without explicit regularization, suggesting
the existence of hidden regularization effects. Recent work by Baratin et al.
(2021) sheds light on an intriguing implicit regularization effect, showing
that some layers are much more aligned with data labels than other layers. This
suggests that as the network grows in depth and width, an implicit layer
selection phenomenon occurs during training. In this work, we provide the first
explanation for this alignment hierarchy. We introduce and empirically validate
the Equilibrium Hypothesis which states that the layers that achieve some
balance between forward and backward information loss are the ones with the
highest alignment to data labels. Our experiments demonstrate an excellent
match with the theoretical predictions.
- Abstract(参考訳): 現代のディープニューラルネットワーク(DNN)は、明示的な正規化なしで様々なタスクに顕著な一般化特性を示し、隠された正規化効果の存在を示唆している。
Baratin et al. (2021) による最近の研究は、興味深い暗黙の正規化効果に光を当て、いくつかの層が他の層よりもはるかにデータラベルと整合していることを示している。
これはネットワークの深さと幅が大きくなるにつれて、トレーニング中に暗黙の層選択現象が起こることを示唆している。
本稿では,このアライメント階層について,最初の説明を行う。
我々は,前方情報損失と後方情報損失のバランスをとる層がデータラベルに最も一致する層であることを示す平衡仮説を導入し,実証的に検証する。
我々の実験は理論的な予測とよく一致している。
関連論文リスト
- Neural Rank Collapse: Weight Decay and Small Within-Class Variability
Yield Low-Rank Bias [4.829265670567825]
トレーニングネットワークの低ランクバイアスとニューラルネットワークの神経崩壊特性を結びつける,興味深いニューラルネットワークランク崩壊現象の存在を示す。
重み劣化パラメータが大きくなるにつれて、ネットワーク内の各レイヤのランクは、前のレイヤの隠れ空間埋め込みのクラス内変動に比例して減少する。
論文 参考訳(メタデータ) (2024-02-06T13:44:39Z) - Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - What Does the Gradient Tell When Attacking the Graph Structure [44.44204591087092]
本稿では,GNNのメッセージパッシング機構により,攻撃者がクラス間エッジを増大させる傾向があることを示す。
異なるノードを接続することで、攻撃者はより効果的にノード機能を破損させ、そのような攻撃をより有利にする。
本研究では,攻撃効率と非受容性のバランスを保ち,より優れた非受容性を実現するために攻撃効率を犠牲にする,革新的な攻撃損失を提案する。
論文 参考訳(メタデータ) (2022-08-26T15:45:20Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - The Low-Rank Simplicity Bias in Deep Networks [46.79964271742486]
我々は、ディープネットワークが帰納的にバイアスを受けているという仮説を調査し、拡張する実験的な観察を行い、低い有効ランク埋め込みの解を見つける。
我々の主張は、実践的な学習パラダイム上の有限幅線形および非線形モデルに真であることを示すとともに、自然データ上では、これらがよく一般化される解であることを示す。
論文 参考訳(メタデータ) (2021-03-18T17:58:02Z) - A Deeper Look at the Hessian Eigenspectrum of Deep Neural Networks and
its Applications to Regularization [16.98526336526696]
各層におけるヘッシアンの固有スペクトルを研究することにより、層状損失のランドスケープを研究する。
特に, 層状ヘッセン幾何学はヘッセン幾何学の全体とほとんど類似していることが示された。
層状ヘッシアンの痕跡に基づく新しい正則化器を提案する。
論文 参考訳(メタデータ) (2020-12-07T15:42:44Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - AL2: Progressive Activation Loss for Learning General Representations in
Classification Neural Networks [12.14537824884951]
本稿では,トレーニング中のアクティベーションの規模を段階的に罰する新たな正規化手法を提案する。
本手法が一般化に与える影響をラベルランダム化試験と累積アブレーションを用いて解析した。
論文 参考訳(メタデータ) (2020-03-07T18:38:46Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。