論文の概要: Hessian Eigenvectors and Principal Component Analysis of Neural Network
Weight Matrices
- arxiv url: http://arxiv.org/abs/2311.00452v1
- Date: Wed, 1 Nov 2023 11:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 13:55:44.222778
- Title: Hessian Eigenvectors and Principal Component Analysis of Neural Network
Weight Matrices
- Title(参考訳): ヘッセン固有ベクトルとニューラルネットワーク重み行列の主成分分析
- Authors: David Haink
- Abstract要約: この研究は、訓練された深層ニューラルネットワークの複雑なダイナミクスと、それらのネットワークパラメータとの関係について考察する。
ヘッセン固有ベクトルとネットワーク重みの関係を明らかにする。
この関係は固有値の大きさに依存し、ネットワーク内のパラメータの方向を識別することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study delves into the intricate dynamics of trained deep neural networks
and their relationships with network parameters. Trained networks predominantly
continue training in a single direction, known as the drift mode. This drift
mode can be explained by the quadratic potential model of the loss function,
suggesting a slow exponential decay towards the potential minima. We unveil a
correlation between Hessian eigenvectors and network weights. This
relationship, hinging on the magnitude of eigenvalues, allows us to discern
parameter directions within the network. Notably, the significance of these
directions relies on two defining attributes: the curvature of their potential
wells (indicated by the magnitude of Hessian eigenvalues) and their alignment
with the weight vectors. Our exploration extends to the decomposition of weight
matrices through singular value decomposition. This approach proves practical
in identifying critical directions within the Hessian, considering both their
magnitude and curvature. Furthermore, our examination showcases the
applicability of principal component analysis in approximating the Hessian,
with update parameters emerging as a superior choice over weights for this
purpose. Remarkably, our findings unveil a similarity between the largest
Hessian eigenvalues of individual layers and the entire network. Notably,
higher eigenvalues are concentrated more in deeper layers. Leveraging these
insights, we venture into addressing catastrophic forgetting, a challenge of
neural networks when learning new tasks while retaining knowledge from previous
ones. By applying our discoveries, we formulate an effective strategy to
mitigate catastrophic forgetting, offering a possible solution that can be
applied to networks of varying scales, including larger architectures.
- Abstract(参考訳): 本研究では,訓練された深層ニューラルネットワークの複雑なダイナミクスとネットワークパラメータとの関係について考察する。
訓練ネットワークは主にドリフトモードと呼ばれる単一の方向のトレーニングを継続する。
このドリフトモードは損失関数の二次ポテンシャルモデルによって説明され、ポテンシャルミニマへの緩やかな指数的減衰が示唆される。
ヘシアン固有ベクトルとネットワーク重みの関係を明らかにする。
この関係は固有値の大きさに依存しており、ネットワーク内のパラメータの方向を識別できる。
特に、これらの方向の重要性は、ポテンシャル井戸の曲率(ヘッセン固有値の大きさによって示される)と重みベクトルとのアライメントの2つの定義属性に依存する。
我々の研究は、特異値分解による重み行列の分解にまで及んでいる。
このアプローチは、その大きさと曲率の両方を考慮して、ヘッセン圏内の臨界方向を特定する実践的な方法である。
さらに,本研究はヘッセン語を近似する主成分分析の適用性を示し,更新パラメータは重みよりも優れた選択であることを示した。
興味深いことに、我々の発見は個々の階層の最大のヘッセン固有値とネットワーク全体の類似性を明らかにした。
特に、より高い固有値はより深い層に集中する。
これらの洞察を活用することで、私たちは破滅的な忘れ、ニューラルネットワークによる新しいタスクの学習における課題に対処し、以前のタスクからの知識を維持します。
我々の発見を適用して、破滅的な忘れを緩和する効果的な戦略を定式化し、より大きなアーキテクチャを含む様々なスケールのネットワークに適用可能な解決策を提供する。
関連論文リスト
- Theoretical characterisation of the Gauss-Newton conditioning in Neural Networks [5.851101657703105]
ニューラルネットワークにおけるガウスニュートン行列(GN)の条件付けを理論的に特徴付けるための第一歩を踏み出す。
我々は、任意の深さと幅の深い線形ネットワークにおいて、GNの条件数に厳密な境界を確立する。
残りの接続や畳み込み層といったアーキテクチャコンポーネントに分析を拡張します。
論文 参考訳(メタデータ) (2024-11-04T14:56:48Z) - Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Analytic Insights into Structure and Rank of Neural Network Hessian Maps [32.90143789616052]
ニューラルネットワークのヘシアンは、損失の2階微分を通じてパラメータ相互作用をキャプチャする。
我々は、ヘッセン写像の範囲を分析する理論的ツールを開発し、その階数不足の正確な理解を提供する。
これにより、ディープ線形ネットワークのヘッセン階数に対する正確な公式と厳密な上界が得られる。
論文 参考訳(メタデータ) (2021-06-30T17:29:58Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Eigendecomposition-Free Training of Deep Networks for Linear
Least-Square Problems [107.3868459697569]
我々は、ディープネットワークのトレーニングに固有分解のないアプローチを導入する。
この手法は固有分解の明示的な微分よりもはるかに堅牢であることを示す。
我々の手法は収束特性が良く、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-04-15T04:29:34Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。