論文の概要: The effects of Hessian eigenvalue spectral density type on the applicability of Hessian analysis to generalization capability assessment of neural networks
- arxiv url: http://arxiv.org/abs/2504.17618v1
- Date: Thu, 24 Apr 2025 14:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.41239
- Title: The effects of Hessian eigenvalue spectral density type on the applicability of Hessian analysis to generalization capability assessment of neural networks
- Title(参考訳): ヘシアン固有値スペクトル密度型がニューラルネットワークの一般化能力評価へのヘシアン解析の適用性に及ぼす影響
- Authors: Nikita Gabdullin,
- Abstract要約: ニューラルネットワーク(NN)のヘッセンは、NNロスランドスケープの曲率に関する必須情報を含んでいる。
ニューラルネットワーク(NN)のヘッセンは、NNロスランドスケープの曲率に関する必須情報を含んでいる。
ニューラルネットワーク(NN)のヘッセンは、NNロスランドスケープの曲率に関する必須情報を含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hessians of neural network (NN) contain essential information about the curvature of NN loss landscapes which can be used to estimate NN generalization capabilities. We have previously proposed generalization criteria that rely on the observation that Hessian eigenvalue spectral density (HESD) behaves similarly for a wide class of NNs. This paper further studies their applicability by investigating factors that can result in different types of HESD. We conduct a wide range of experiments showing that HESD mainly has positive eigenvalues (MP-HESD) for NN training and fine-tuning with various optimizers on different datasets with different preprocessing and augmentation procedures. We also show that mainly negative HESD (MN-HESD) is a consequence of external gradient manipulation, indicating that the previously proposed Hessian analysis methodology cannot be applied in such cases. We also propose criteria and corresponding conditions to determine HESD type and estimate NN generalization potential. These HESD types and previously proposed generalization criteria are combined into a unified HESD analysis methodology. Finally, we discuss how HESD changes during training, and show the occurrence of quasi-singular (QS) HESD and its influence on the proposed methodology and on the conventional assumptions about the relation between Hessian eigenvalues and NN loss landscape curvature.
- Abstract(参考訳): ニューラルネットワーク(NN)のヘシアンには、NNの一般化能力を推定するために使用できるNN損失ランドスケープの曲率に関する必須情報が含まれている。
我々はヘッセン固有値スペクトル密度(Hessian eigenvalue spectrum density, HESD)が幅広いNNに対して同様に振る舞うという観測に依存する一般化基準を提案してきた。
本稿では,異なるタイプのHESDを生じる要因を調査し,それらの適用性について検討する。
HESDは主に、NNトレーニングのための正の固有値(MP-HESD)を持ち、異なる前処理と拡張手順を持つ異なるデータセット上の様々なオプティマイザと微調整を行う。
また, 主に負のHESD (MN-HESD) は, 外部勾配操作の結果であり, 従来提案されていたヘッセン解析手法は適用できないことを示す。
また、HESD型判定のための基準と対応条件を提案し、NN一般化ポテンシャルを推定する。
これらのHESD型と従来提案されていた一般化基準を統合HESD分析手法に統合する。
最後に、トレーニング中にHESDがどのように変化し、準特異(QS)HESDの発生が提案手法およびヘッセン固有値とNN損失ランドスケープの曲率との関係に関する従来の仮定に与える影響を論じる。
関連論文リスト
- Investigating generalization capabilities of neural networks by means of loss landscapes and Hessian analysis [0.0]
本稿では,新たに改良されたPyTorchライブラリLoss Landscape Analysis(LLA)を用いたニューラルネットワーク(NN)の一般化機能について検討する。
LLAは、NN Hessianの特性とともに、損失景観の可視化と解析を容易にする。
論文 参考訳(メタデータ) (2024-12-13T14:02:41Z) - A Non-negative VAE:the Generalized Gamma Belief Network [49.970917207211556]
ガンマ信念ネットワーク(GBN)は、テキストデータ中の多層解釈可能な潜在表現を明らかにする可能性を実証している。
本稿では、一般化ガンマ信念ネットワーク(Generalized GBN)を導入し、元の線形生成モデルをより表現力のある非線形生成モデルに拡張する。
また、潜伏変数の後方分布を近似する上向きのワイブル推論ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-06T18:18:37Z) - Bias-Reduced Neural Networks for Parameter Estimation in Quantitative MRI [0.13654846342364307]
ニューラルネットワーク(NN)に基づく定量的MRIパラメータ推定器を開発した。
論文 参考訳(メタデータ) (2023-11-13T20:41:48Z) - On the Generalization and Approximation Capacities of Neural Controlled Differential Equations [0.3222802562733786]
Neural Controlled Differential Equations (NCDE) は、不規則サンプル時系列を用いた教師あり学習のための最先端のツールである。
ニューラルネット上の古典的近似結果がNCDEにどのように移行するかを示す。
論文 参考訳(メタデータ) (2023-05-26T10:02:32Z) - Information Bottleneck Analysis of Deep Neural Networks via Lossy Compression [37.69303106863453]
Information Bottleneck(IB)原則は、ディープニューラルネットワーク(DNN)のトレーニングプロセスを分析するための情報理論フレームワークを提供する。
本稿では,一般NNのICB解析を行うためのフレームワークを提案する。
また,MI力学の新たな特徴を明らかにするため,実規模に近いISB解析を行う。
論文 参考訳(メタデータ) (2023-05-13T21:44:32Z) - An Information-Theoretic Perspective on Variance-Invariance-Covariance Regularization [52.44068740462729]
我々は、VICRegの目的に関する情報理論的な視点を示す。
我々は、VICRegの一般化を導出し、下流タスクに固有の利点を明らかにした。
既存のSSL技術よりも優れた情報理論の原理から派生したSSL手法のファミリーを紹介する。
論文 参考訳(メタデータ) (2023-03-01T16:36:25Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。
私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。
この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:36:32Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z) - Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks [27.54155197562196]
勾配降下(SGD)の軌跡は,emphFeller法によりよく近似できることを示す。
このような一般化の成功を測る「容量メートル法」を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。