論文の概要: The activity-weight duality in feed forward neural networks: The
geometric determinants of generalization
- arxiv url: http://arxiv.org/abs/2203.10736v2
- Date: Tue, 22 Mar 2022 15:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 11:29:02.300386
- Title: The activity-weight duality in feed forward neural networks: The
geometric determinants of generalization
- Title(参考訳): フィードフォワードニューラルネットワークにおける活動重双対性:一般化の幾何学的決定因子
- Authors: Yu Feng and Yuhai Tu
- Abstract要約: ニューロンの特定の層における活動の変化と、任意のフィードフォワード神経ネットワーク内の密結合層内のニューロンの次の層に接続する重みの変化の間には、正確な双対性がある。
これらの洞察は、過度にパラメータ化されたニューラルネットワークでより一般化可能なソリューションを見つけるアルゴリズムの開発を導くのに使うことができる。
- 参考スコア(独自算出の注目度): 7.372592187197655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the fundamental problems in machine learning is generalization. In
neural network models with a large number of weights (parameters), many
solutions can be found to fit the training data equally well. The key question
is which solution can describe testing data not in the training set. Here, we
report the discovery of an exact duality (equivalence) between changes in
activities in a given layer of neurons and changes in weights that connect to
the next layer of neurons in a densely connected layer in any feed forward
neural network. The activity-weight (A-W) duality allows us to map variations
in inputs (data) to variations of the corresponding dual weights. By using this
mapping, we show that the generalization loss can be decomposed into a sum of
contributions from different eigen-directions of the Hessian matrix of the loss
function at the solution in weight space. The contribution from a given
eigen-direction is the product of two geometric factors (determinants): the
sharpness of the loss landscape and the standard deviation of the dual weights,
which is found to scale with the weight norm of the solution. Our results
provide an unified framework, which we used to reveal how different
regularization schemes (weight decay, stochastic gradient descent with
different batch sizes and learning rates, dropout), training data size, and
labeling noise affect generalization performance by controlling either one or
both of these two geometric determinants for generalization. These insights can
be used to guide development of algorithms for finding more generalizable
solutions in overparametrized neural networks.
- Abstract(参考訳): 機械学習の基本的な問題の1つは一般化である。
多くの重み(パラメータ)を持つニューラルネットワークモデルでは、多くの解がトレーニングデータに等しく適合していることが分かる。
鍵となる問題は、どのソリューションがトレーニングセットにないテストデータを記述することができるかである。
本稿では、ニューロンの特定の層における活動の変化と、任意のフィードフォワード神経ネットワーク内の密結合層内のニューロンの次の層に接続する重みの変化の正確な双対性(等価性)を発見したことを報告する。
アクティビティー重み(a-w)の双対性により、入力(データ)のバリエーションを対応する双対重みのバリエーションにマップできる。
この写像を用いることで、一般化損失は重み空間の解における損失関数のヘッセン行列の異なる固有方向からの寄与の和に分解できることを示した。
与えられた固有方向からの寄与は、2つの幾何学的要因(決定要因)の積である:損失の風景の鋭さと双対重みの標準偏差であり、これは解の重みのノルムでスケールすることが分かる。
提案手法は,定式化手法の違い(バッチサイズや学習率の異なる確率勾配降下,ドロップアウト,トレーニングデータサイズ,ラベル付けノイズ)が,一般化のためにこれらの2つの幾何学的行列式のいずれかを制御することによって,一般化性能にどのように影響するかを明らかにするものである。
これらの洞察は、過度にパラメータ化されたニューラルネットワークでより一般化可能なソリューションを見つけるアルゴリズムの開発を導くために使用できる。
関連論文リスト
- Network scaling and scale-driven loss balancing for intelligent poroelastography [2.665036498336221]
フルウェーブフォームデータからポリ弾性媒体のマルチスケールキャラクタリゼーションのためのディープラーニングフレームワークを開発した。
2つの大きな課題は、この目的のために既存の最先端技術を直接適用することを妨げる。
本稿では, ニューラルネットワークをスケーリング層に構成した単位形状関数を用いて, ニューラルプロパティマップを構築する, エンフェネティックスケーリングの考え方を提案する。
論文 参考訳(メタデータ) (2024-10-27T23:06:29Z) - Hessian Eigenvectors and Principal Component Analysis of Neural Network
Weight Matrices [0.0]
この研究は、訓練された深層ニューラルネットワークの複雑なダイナミクスと、それらのネットワークパラメータとの関係について考察する。
ヘッセン固有ベクトルとネットワーク重みの関係を明らかにする。
この関係は固有値の大きさに依存し、ネットワーク内のパラメータの方向を識別することができる。
論文 参考訳(メタデータ) (2023-11-01T11:38:31Z) - Expand-and-Cluster: Parameter Recovery of Neural Networks [9.497862562614666]
それぞれのニューロンの重みベクトルは,活性化関数に応じて,サインやスケーリングが可能であることを示す。
提案手法は, 一般的に使用されるすべてのアクティベーション関数に対して, 対象ネットワークの重みを同定する。
論文 参考訳(メタデータ) (2023-04-25T13:14:20Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Conditional physics informed neural networks [85.48030573849712]
固有値問題のクラス解を推定するための条件付きPINN(物理情報ニューラルネットワーク)を紹介します。
一つのディープニューラルネットワークが、問題全体に対する偏微分方程式の解を学習できることが示される。
論文 参考訳(メタデータ) (2021-04-06T18:29:14Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Properties of the geometry of solutions and capacity of multi-layer neural networks with Rectified Linear Units activations [2.3018169548556977]
本稿では,2層ニューラルネットワークにおける線形整流ユニットが解空間の容量および幾何学的景観に与える影響について検討する。
予想外のことに、隠れた層内のニューロン数が増加するにつれて、ネットワークの容量は有限であることがわかった。
おそらくもっと重要なことは、大きな偏差のアプローチによって、解空間の幾何学的景観が特異な構造を持つことを見つけることができるということである。
論文 参考訳(メタデータ) (2019-07-17T15:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。