論文の概要: Dissecting Hessian: Understanding Common Structure of Hessian in Neural
Networks
- arxiv url: http://arxiv.org/abs/2010.04261v5
- Date: Wed, 16 Jun 2021 15:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 10:56:22.547339
- Title: Dissecting Hessian: Understanding Common Structure of Hessian in Neural
Networks
- Title(参考訳): 解剖型hessian:ニューラルネットワークにおけるhessianの共通構造を理解する
- Authors: Yikai Wu, Xingyu Zhu, Chenwei Wu, Annie Wang, Rong Ge
- Abstract要約: Hessianは、ディープニューラルネットワークロスランドスケープの重要な特性をキャプチャする。
我々は、層ワイド・ヘッセンの最高固有空間に関する新しい観測を行う。
クロネッカー因数分解を用いてヘッセンを近似することにより、新しい固有空間構造を説明できることを示す。
- 参考スコア(独自算出の注目度): 11.57132149295061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hessian captures important properties of the deep neural network loss
landscape. Previous works have observed low rank structure in the Hessians of
neural networks. We make several new observations about the top eigenspace of
layer-wise Hessian: top eigenspaces for different models have surprisingly high
overlap, and top eigenvectors form low rank matrices when they are reshaped
into the same shape as the corresponding weight matrix. Towards formally
explaining such structures of the Hessian, we show that the new eigenspace
structure can be explained by approximating the Hessian using Kronecker
factorization; we also prove the low rank structure for random data at random
initialization for over-parametrized two-layer neural nets. Our new
understanding can explain why some of these structures become weaker when the
network is trained with batch normalization. The Kronecker factorization also
leads to better explicit generalization bounds.
- Abstract(参考訳): hessianはディープニューラルネットワークの損失景観の重要な特性を捉えている。
これまでの研究では、ニューラルネットワークのヘッセンで低位構造が観察されている。
異なるモデルの上位固有空間は驚くほど高い重なり合いを持ち、上位固有ベクトルは対応する重み行列と同じ形状に変形されたときに低階行列を形成する。
ヘシアンの構造を形式的に説明するために,クロネッカー因子分解を用いてヘシアンを近似することにより,新しい固有空間構造を説明できることを示すとともに,超パラメータ2層ニューラルネットのランダム初期化におけるランダムデータのための低ランク構造を証明した。
我々の新しい理解は、ネットワークがバッチ正規化でトレーニングされると、これらの構造が弱くなる理由を説明することができる。
クロネッカー因子分解はまた、より明確な一般化境界をもたらす。
関連論文リスト
- Hessian Eigenvectors and Principal Component Analysis of Neural Network
Weight Matrices [0.0]
この研究は、訓練された深層ニューラルネットワークの複雑なダイナミクスと、それらのネットワークパラメータとの関係について考察する。
ヘッセン固有ベクトルとネットワーク重みの関係を明らかにする。
この関係は固有値の大きさに依存し、ネットワーク内のパラメータの方向を識別することができる。
論文 参考訳(メタデータ) (2023-11-01T11:38:31Z) - The Hessian perspective into the Nature of Convolutional Neural Networks [32.7270996241955]
我々は,CNNのToeplitz表現に依存したフレームワークを開発し,それを用いてヘッセン構造,特にそのランクを明らかにする。
全体として、我々の研究は、CNNにおいてもパラメータ数の平方根としてヘッセン階数が増加するという重要な洞察を一般化し確立している。
論文 参考訳(メタデータ) (2023-05-16T01:15:00Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Analytic Insights into Structure and Rank of Neural Network Hessian Maps [32.90143789616052]
ニューラルネットワークのヘシアンは、損失の2階微分を通じてパラメータ相互作用をキャプチャする。
我々は、ヘッセン写像の範囲を分析する理論的ツールを開発し、その階数不足の正確な理解を提供する。
これにより、ディープ線形ネットワークのヘッセン階数に対する正確な公式と厳密な上界が得られる。
論文 参考訳(メタデータ) (2021-06-30T17:29:58Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。