論文の概要: Towards Quantifying the Hessian Structure of Neural Networks
- arxiv url: http://arxiv.org/abs/2505.02809v1
- Date: Mon, 05 May 2025 17:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.755331
- Title: Towards Quantifying the Hessian Structure of Neural Networks
- Title(参考訳): ニューラルネットワークのヘッセン構造の定量化に向けて
- Authors: Zhaorui Dong, Yushun Zhang, Zhi-Quan Luo, Jianfeng Yao, Ruoyu Sun,
- Abstract要約: ニューラルネットワーク(NN)のヘッセン行列は、ほぼブロック対角構造を示すと実証研究が報告した。
建築設計に根ざした静的力」と「動的力」という,ヘッセン構造を形成する2つの力を明らかにする。
- 参考スコア(独自算出の注目度): 19.74568179277965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical studies reported that the Hessian matrix of neural networks (NNs) exhibits a near-block-diagonal structure, yet its theoretical foundation remains unclear. In this work, we reveal two forces that shape the Hessian structure: a ``static force'' rooted in the architecture design, and a ``dynamic force'' arisen from training. We then provide a rigorous theoretical analysis of ``static force'' at random initialization. We study linear models and 1-hidden-layer networks with the mean-square (MSE) loss and the Cross-Entropy (CE) loss for classification tasks. By leveraging random matrix theory, we compare the limit distributions of the diagonal and off-diagonal Hessian blocks and find that the block-diagonal structure arises as $C \rightarrow \infty$, where $C$ denotes the number of classes. Our findings reveal that $C$ is a primary driver of the near-block-diagonal structure. These results may shed new light on the Hessian structure of large language models (LLMs), which typically operate with a large $C$ exceeding $10^4$ or $10^5$.
- Abstract(参考訳): ニューラルネットワークのヘッセン行列(英語版)(NN)がほぼブロック対角構造を示すという実証研究が報告されているが、その理論的基礎は未だ不明である。
本研究では,建築設計に根ざした「静的力」と,訓練から生じる「動的力」という,ヘッセン構造を形成する2つの力を明らかにする。
次に、ランダム初期化における「静力」の厳密な理論的解析を行う。
本研究では,平均二乗損失(MSE)とクロスエントロピー損失(CE)を分類タスクに用いた線形モデルと1隠れ層ネットワークについて検討した。
ランダム行列理論を利用することで、対角ブロックと対角ブロックの極限分布を比較し、ブロック対角構造が$C \rightarrow \infty$として現れ、$C$はクラスの数を表す。
以上の結果より,C$は近ブロック対角構造の主要なドライバであることが明らかとなった。
これらの結果は、大きな言語モデル(LLMs)のヘッセン構造に新たな光を当てる可能性がある。
関連論文リスト
- Geometry of fibers of the multiplication map of deep linear neural networks [0.0]
固定行列に乗算する構成可能な行列のクイバーの集合の幾何学について検討する。
我々の解は、同変コホモロジーにおけるポアンカー級数、二次整数プログラム、明示的な公式の3つの形式で表される。
論文 参考訳(メタデータ) (2024-11-29T18:36:03Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - A simple geometric proof for the benefit of depth in ReLU networks [57.815699322370826]
本論文では, 多層フィードフォワードネットワークにおける深度の利点を, 整流活性化(深度分離)により証明する。
我々は、線形深さ($m$)と小さな定数幅($leq 4$)を持つ具体的なニューラルネットワークを示し、問題をゼロエラーで分類する。
論文 参考訳(メタデータ) (2021-01-18T15:40:27Z) - Practical Quasi-Newton Methods for Training Deep Neural Networks [12.48022619079224]
トレーニングにおいて、勾配の$n$の変数と成分の数は、しばしば数千万の順序のものであり、ヘッセン元は$n2$要素を持つ。
ブロック対角行列によりヘッセンを近似し、勾配とヘッセンの構造を用いてこれらのブロックをさらに近似する。
DNNにおけるヘシアンの不確定かつ高度に可変な性質のため、BFGSとL-BFGSの近似の上限と下限を有界に保つための新しい減衰法も提案する。
論文 参考訳(メタデータ) (2020-06-16T02:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。