論文の概要: Investigating generalization capabilities of neural networks by means of loss landscapes and Hessian analysis
- arxiv url: http://arxiv.org/abs/2412.10146v2
- Date: Wed, 05 Feb 2025 08:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:18.598133
- Title: Investigating generalization capabilities of neural networks by means of loss landscapes and Hessian analysis
- Title(参考訳): ロスランドスケープを用いたニューラルネットワークの一般化機能の検討とヘッセン解析
- Authors: Nikita Gabdullin,
- Abstract要約: 本稿では,新たに改良されたPyTorchライブラリLoss Landscape Analysis(LLA)を用いたニューラルネットワーク(NN)の一般化機能について検討する。
LLAは、NN Hessianの特性とともに、損失景観の可視化と解析を容易にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper studies generalization capabilities of neural networks (NNs) using new and improved PyTorch library Loss Landscape Analysis (LLA). LLA facilitates visualization and analysis of loss landscapes along with the properties of NN Hessian. Different approaches to NN loss landscape plotting are discussed with particular focus on normalization techniques showing that conventional methods cannot always ensure correct visualization when batch normalization layers are present in NN architecture. The use of Hessian axes is shown to be able to mitigate this effect, and methods for choosing Hessian axes are proposed. In addition, spectra of Hessian eigendecomposition are studied and it is shown that typical spectra exist for a wide range of NNs. This allows to propose quantitative criteria for Hessian analysis that can be applied to evaluate NN performance and assess its generalization capabilities. Generalization experiments are conducted using ImageNet-1K pre-trained models along with several models trained as part of this study. The experiment include training models on one dataset and testing on another one to maximize experiment similarity to model performance in the Wild. It is shown that when datasets change, the changes in criteria correlate with the changes in accuracy, making the proposed criteria a computationally efficient estimate of generalization ability, which is especially useful for extremely large datasets.
- Abstract(参考訳): 本稿では,新たに改良されたPyTorchライブラリLoss Landscape Analysis(LLA)を用いたニューラルネットワーク(NN)の一般化機能について検討する。
LLAは、NN Hessianの特性とともに、損失景観の可視化と解析を容易にする。
NNアーキテクチャにバッチ正規化層が存在する場合,従来の手法が常に正確な可視化を保証できないことを示す正規化技術に特に焦点をあてて,NN損失ランドスケーププロットに対する異なるアプローチについて論じる。
ヘッセン軸の使用により、この効果を緩和できることが示され、ヘッセン軸を選択する方法が提案されている。
さらに、ヘッセン固有分解スペクトルの研究を行い、幅広いNNに対して典型的なスペクトルが存在することを示した。
これにより、NNの性能を評価し、その一般化能力を評価するために応用できるヘッセン分析の定量的基準を提案することができる。
この研究の一環として,ImageNet-1K事前学習モデルといくつかのモデルを用いて一般化実験を行った。
この実験には、あるデータセット上のトレーニングモデルと、別のデータセットに対するテストが含まれており、Wildにおけるモデルパフォーマンスと実験の類似性を最大化する。
データセットが変化すると、基準の変更は精度の変化と相関し、提案された基準は、非常に大きなデータセットに特に有用である一般化能力の計算学的に効率的な推定となる。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Subject-specific Deep Neural Networks for Count Data with
High-cardinality Categorical Features [1.2289361708127877]
本稿では,ポアソンディープニューラルネットワークにガンマランダム効果を導入するための新しい階層的確率学習フレームワークを提案する。
提案手法は,固定パラメータの最大極大推定器とランダム効果の最適非バイアス予測器を同時に生成する。
最先端のネットワークアーキテクチャは、提案されたh-likelihoodフレームワークに容易に実装できる。
論文 参考訳(メタデータ) (2023-10-18T01:54:48Z) - Regularization, early-stopping and dreaming: a Hopfield-like setup to
address generalization and overfitting [0.0]
正規化損失関数に勾配降下を適用し,最適ネットワークパラメータを求める。
この枠組みの中で、最適なニューロン相互作用行列は、繰り返し学習プロトコルによって修正されたヘビアン核に対応する。
論文 参考訳(メタデータ) (2023-08-01T15:04:30Z) - GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples
using Gradients and Invariance Transformations [77.34726150561087]
本稿では,ディープニューラルネットワークにおける一般化誤差検出のための総合的アプローチを提案する。
GITは勾配情報と不変変換の利用を組み合わせる。
本実験は,各種ネットワークアーキテクチャの最先端技術と比較して,GITの優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-07-05T22:04:38Z) - Training Scale-Invariant Neural Networks on the Sphere Can Happen in
Three Regimes [3.808063547958558]
本研究では、固定ELRを用いて、球面上でのスケール不変ニューラルネットワークのトレーニング特性について検討する。
本研究では, 収束, カオス平衡, 分散という, ELR の値に依存する3つの訓練条件を見いだす。
論文 参考訳(メタデータ) (2022-09-08T10:30:05Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Exponentially improved detection and correction of errors in
experimental systems using neural networks [0.0]
実験装置の実証モデルを作成するために,2つの機械学習アルゴリズムを導入する。
これにより、一般化最適化タスクに必要な測定回数を指数関数的に削減することができる。
イオントラップ内の成層電場の検出と補償を例に,両アルゴリズムを実証する。
論文 参考訳(メタデータ) (2020-05-18T22:42:11Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - Topologically Densified Distributions [25.140319008330167]
オーバーパラメータ化ニューラルネットワークを用いた小さなサンプルサイズ学習の文脈における正規化について検討する。
我々は、その空間で誘導される確率測度から引き出されたサンプルに位相的制約を課す。
このことは、トレーニングインスタンスの表現に関する質量濃度の影響を確実に引き起こす。
論文 参考訳(メタデータ) (2020-02-12T05:25:15Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。