論文の概要: On the geometry of generalization and memorization in deep neural
networks
- arxiv url: http://arxiv.org/abs/2105.14602v1
- Date: Sun, 30 May 2021 19:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:29:18.052752
- Title: On the geometry of generalization and memorization in deep neural
networks
- Title(参考訳): ディープニューラルネットワークにおける一般化と記憶の幾何学について
- Authors: Cory Stephenson, Suchismita Padhy, Abhinav Ganesh, Yue Hui, Hanlin
Tang and SueYeon Chung
- Abstract要約: 本研究では,深層ネットワークにおいて,いつ,どこで暗記が起こるかという構造について検討する。
すべてのレイヤは、機能を共有する例から優先的に学び、この振る舞いを一般化のパフォーマンスにリンクする。
我々は,物体の半径と寸法を減少させるため,より深い層に暗記が顕著に起こることを見出した。
- 参考スコア(独自算出の注目度): 15.250162344382051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how large neural networks avoid memorizing training data is key
to explaining their high generalization performance. To examine the structure
of when and where memorization occurs in a deep network, we use a recently
developed replica-based mean field theoretic geometric analysis method. We find
that all layers preferentially learn from examples which share features, and
link this behavior to generalization performance. Memorization predominately
occurs in the deeper layers, due to decreasing object manifolds' radius and
dimension, whereas early layers are minimally affected. This predicts that
generalization can be restored by reverting the final few layer weights to
earlier epochs before significant memorization occurred, which is confirmed by
the experiments. Additionally, by studying generalization under different model
sizes, we reveal the connection between the double descent phenomenon and the
underlying model geometry. Finally, analytical analysis shows that networks
avoid memorization early in training because close to initialization, the
gradient contribution from permuted examples are small. These findings provide
quantitative evidence for the structure of memorization across layers of a deep
neural network, the drivers for such structure, and its connection to manifold
geometric properties.
- Abstract(参考訳): 大規模なニューラルネットワークがトレーニングデータの記憶を避ける方法を理解することが、その高い一般化性能を説明する鍵となる。
深層ネットワークにおいて記憶がいつ,どこで発生したかを調べるために,最近開発したレプリカベース平均場理論幾何学解析法を用いる。
すべてのレイヤが特徴を共有する例から優先的に学習し、この振る舞いを一般化性能にリンクする。
記憶は、物体多様体の半径と次元を減少させるため、より深い層で顕著に起こるが、初期層は最小限の影響を受ける。
これにより、最終的な数層重みを、重要な記憶化が起こる前に以前のエポックに戻すことで一般化を回復できると予測され、実験によって確認される。
さらに,異なるモデルサイズでの一般化を研究することにより,二重降下現象とモデル幾何との関係を明らかにする。
最後に、解析解析により、ネットワークは初期化に近く、置換例からの勾配寄与が小さいため、トレーニングの早い段階で記憶を避けていることが示された。
これらの知見は、深層ニューラルネットワークの層間における記憶構造、その構造のドライバ、および多様体幾何学的性質との関係に関する定量的な証拠を提供する。
関連論文リスト
- Storing overlapping associative memories on latent manifolds in low-rank spiking networks [5.041384008847852]
我々はスパイクベースの計算の理解の進歩を踏まえ、連想記憶問題を再考する。
大規模全阻止ネットワークのスパイク活性は,低次元,凸,片方向線形多様体上に位置することを示す。
学習ルールをいくつか提案し, 記憶容量をニューロン数で線形に拡張し, パターン完備化能力を示す。
論文 参考訳(メタデータ) (2024-11-26T14:48:25Z) - A singular Riemannian Geometry Approach to Deep Neural Networks III. Piecewise Differentiable Layers and Random Walks on $n$-dimensional Classes [49.32130498861987]
本稿ではReLUのような非微分可能活性化関数の事例について検討する。
最近の2つの研究は、ニューラルネットワークを研究するための幾何学的枠組みを導入した。
本稿では,画像の分類と熱力学問題に関する数値実験を行った。
論文 参考訳(メタデータ) (2024-04-09T08:11:46Z) - Understanding Deep Representation Learning via Layerwise Feature
Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。
これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文 参考訳(メタデータ) (2023-11-06T09:00:38Z) - Riemannian Residual Neural Networks [58.925132597945634]
残余ニューラルネットワーク(ResNet)の拡張方法を示す。
ResNetは、機械学習において、有益な学習特性、優れた経験的結果、そして様々なニューラルネットワークを構築する際に容易に組み込める性質のために、ユビキタスになった。
論文 参考訳(メタデータ) (2023-10-16T02:12:32Z) - The learning phases in NN: From Fitting the Majority to Fitting a Few [2.5991265608180396]
本研究では、学習中のパラメータの進化に基づいて、入力と予測性能の層再構成能力を分析する。
また、ResNetやVGGといったコンピュータビジョンから、共通のデータセットやアーキテクチャを用いて行動を評価する。
論文 参考訳(メタデータ) (2022-02-16T19:11:42Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。