論文の概要: Connecting Parameter Magnitudes and Hessian Eigenspaces at Scale using Sketched Methods
- arxiv url: http://arxiv.org/abs/2504.14701v1
- Date: Sun, 20 Apr 2025 18:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:37:45.400767
- Title: Connecting Parameter Magnitudes and Hessian Eigenspaces at Scale using Sketched Methods
- Title(参考訳): スケッチ法によるパラメータマグニチュードとヘッセン固有空間のスケール接続
- Authors: Andres Fernandez, Frank Schneider, Maren Mahsereci, Philipp Hennig,
- Abstract要約: 任意のパラメータマスクとヘッセン固有空間の類似性を測定する手法をグラスマン計量を用いて開発する。
我々の実験では、等級パラメータマスクとトップヘッセン固有空間の間の*オーバーラップ*が、確率レベルよりも一貫して高いことを明らかにした。
我々の研究は、ディープラーニングヘッセンを大規模に近似し、分析するための方法論を提供し、また、その固有空間の構造に関する新しい洞察を提供する。
- 参考スコア(独自算出の注目度): 22.835933033524718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, it has been observed that when training a deep neural net with SGD, the majority of the loss landscape's curvature quickly concentrates in a tiny *top* eigenspace of the loss Hessian, which remains largely stable thereafter. Independently, it has been shown that successful magnitude pruning masks for deep neural nets emerge early in training and remain stable thereafter. In this work, we study these two phenomena jointly and show that they are connected: We develop a methodology to measure the similarity between arbitrary parameter masks and Hessian eigenspaces via Grassmannian metrics. We identify *overlap* as the most useful such metric due to its interpretability and stability. To compute *overlap*, we develop a matrix-free algorithm based on sketched SVDs that allows us to compute over 1000 Hessian eigenpairs for nets with over 10M parameters --an unprecedented scale by several orders of magnitude. Our experiments reveal an *overlap* between magnitude parameter masks and top Hessian eigenspaces consistently higher than chance-level, and that this effect gets accentuated for larger network sizes. This result indicates that *top Hessian eigenvectors tend to be concentrated around larger parameters*, or equivalently, that *larger parameters tend to align with directions of larger loss curvature*. Our work provides a methodology to approximate and analyze deep learning Hessians at scale, as well as a novel insight on the structure of their eigenspace.
- Abstract(参考訳): 近年,SGDで深層ニューラルネットワークをトレーニングする場合,損失景観の曲率の大部分は,損失ヘッセンの極小*トップ*固有空間に集中することが観察されている。
独立して、ディープ・ニューラルネットのためのマグニチュード・プルーニングマスクが訓練の初期段階で出現し、その後安定していることが示されている。
本研究では、これらの2つの現象を共同で研究し、それらが連結していることを示す: 任意のパラメータマスクとグラスマン計量によるヘッセン固有空間の類似性を測定する方法論を開発する。
我々は*overlap*を、その解釈可能性と安定性から最も有用な計量とみなす。
オーバーラップ*を計算するために、スケッチされたSVDをベースとした行列のないアルゴリズムを開発し、1000万以上のパラメータを持つネットに対して1000以上のヘッセン固有ペアを計算できる。
我々の実験では、等級パラメータマスクとトップヘッセン固有空間の間の*オーバーラップ*が確率レベルよりも一貫して高くなり、この効果がより大きなネットワークサイズに対してアクセントされることを示した。
この結果は、上ヘッセン固有ベクトルはより大きなパラメータ*に集結する傾向にあり、またはそれと同値に、より大きいパラメータはより大きな損失曲率*の方向と整合する傾向にあることを示している。
我々の研究は、ディープラーニングヘッセンを大規模に近似し、分析するための方法論を提供し、また、その固有空間の構造に関する新しい洞察を提供する。
関連論文リスト
- A Bayesian Approach Toward Robust Multidimensional Ellipsoid-Specific Fitting [0.0]
本研究は, ノイズおよび外周波の汚染における散乱データに多次元楕円体を適合させる, 新規で効果的な方法を提案する。
楕円体領域内でのプリミティブパラメータの探索を制約するために、均一な事前分布を組み込む。
本研究では, 顕微鏡細胞計数, 3次元再構成, 幾何学的形状近似, 磁力計の校正タスクなど, 幅広い応用に応用する。
論文 参考訳(メタデータ) (2024-07-27T14:31:51Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Hessian Eigenvectors and Principal Component Analysis of Neural Network
Weight Matrices [0.0]
この研究は、訓練された深層ニューラルネットワークの複雑なダイナミクスと、それらのネットワークパラメータとの関係について考察する。
ヘッセン固有ベクトルとネットワーク重みの関係を明らかにする。
この関係は固有値の大きさに依存し、ネットワーク内のパラメータの方向を識別することができる。
論文 参考訳(メタデータ) (2023-11-01T11:38:31Z) - Initialization Matters: Privacy-Utility Analysis of Overparameterized
Neural Networks [72.51255282371805]
我々は、最悪の近傍データセット上でのモデル分布間のKLばらつきのプライバシー境界を証明した。
このKLプライバシー境界は、トレーニング中にモデルパラメータに対して期待される2乗勾配ノルムによって決定される。
論文 参考訳(メタデータ) (2023-10-31T16:13:22Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - What does a deep neural network confidently perceive? The effective
dimension of high certainty class manifolds and their low confidence
boundaries [53.45325448933401]
ディープニューラルネットワーク分類器は、入力空間を各クラスに対して高い信頼領域に分割する。
我々はガウス幅の概念とゴードンの脱出定理を利用してCMの有効次元を正確に推定する。
CMの次元、一般化、ロバスト性の間のいくつかの関係を示す。
論文 参考訳(メタデータ) (2022-10-11T15:42:06Z) - Inferring Structural Parameters of Low-Surface-Brightness-Galaxies with
Uncertainty Quantification using Bayesian Neural Networks [70.80563014913676]
ベイズニューラルネットワーク (BNN) を用いて, シミュレーションした低地表面明度銀河画像から, それらのパラメータの不確かさを推測できることを示す。
従来のプロファイル適合法と比較して、BNNを用いて得られた不確実性は等しく、よく校正され、パラメータの点推定は真の値に近いことを示す。
論文 参考訳(メタデータ) (2022-07-07T17:55:26Z) - Deep learning, stochastic gradient descent and diffusion maps [0.0]
勾配降下(SGD)はその計算効率のためにディープラーニングで広く使われている。
過度にパラメータ化された深層ネットワークの損失ランドスケープにおけるHessianの損失関数のほとんどの固有値がゼロに近いことが観察されている。
パラメータ空間は非常に高次元であるが、これらの結果はSGD力学が主に低次元多様体上に存在することを示唆しているようである。
論文 参考訳(メタデータ) (2022-04-04T10:19:39Z) - Exploring the Common Principal Subspace of Deep Features in Neural
Networks [50.37178960258464]
我々は、同じデータセットでトレーニングされた異なるディープニューラルネットワーク(DNN)が、潜在空間において共通の主部分空間を共有することを発見した。
具体的には、DNNで学んだ深い機能の主部分空間を表すために、$mathcalP$-vectorを新たに設計する。
異なるアルゴリズム/アーキテクチャで訓練された2つのDNNの比較では、小さな角度(コサインが1.0ドルに近い)が見つかっている。
論文 参考訳(メタデータ) (2021-10-06T15:48:32Z) - Sketchy Empirical Natural Gradient Methods for Deep Learning [20.517823521066234]
本研究では,大規模ディープラーニング問題に対する効率的なスケッチ型経験勾配法 (SENG) を提案する。
SENGの分散バージョンは、非常に大規模なアプリケーション向けにも開発されている。
ImageNet-1kのタスクResNet50では、SENGは41時間以内に75.9%のTop-1テストの精度を達成した。
論文 参考訳(メタデータ) (2020-06-10T16:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。