論文の概要: Sharpness of Minima in Deep Matrix Factorization: Exact Expressions
- arxiv url: http://arxiv.org/abs/2509.25783v2
- Date: Thu, 02 Oct 2025 19:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 12:05:48.059031
- Title: Sharpness of Minima in Deep Matrix Factorization: Exact Expressions
- Title(参考訳): 深部マトリックス因子化におけるミニマムのシャープ性:特殊表現
- Authors: Anil Kamber, Rahul Parhi,
- Abstract要約: 我々は,任意の最小値における二乗誤差損失のヘシアンに対する最初の正確な表現を示す。
本研究では,勾配学習中の脱走現象について検討した。
- 参考スコア(独自算出の注目度): 5.736588561666141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the geometry of the loss landscape near a minimum is key to explaining the implicit bias of gradient-based methods in non-convex optimization problems such as deep neural network training and deep matrix factorization. A central quantity to characterize this geometry is the maximum eigenvalue of the Hessian of the loss, which measures the sharpness of the landscape. Currently, its precise role has been obfuscated because no exact expressions for this sharpness measure were known in general settings. In this paper, we present the first exact expression for the maximum eigenvalue of the Hessian of the squared-error loss at any minimizer in general overparameterized deep matrix factorization (i.e., deep linear neural network training) problems, resolving an open question posed by Mulayoff & Michaeli (2020). To complement our theory, we empirically investigate an escape phenomenon observed during gradient-based training near a minimum that crucially relies on our exact expression of the sharpness.
- Abstract(参考訳): 最小限に近い損失景観の幾何学を理解することは、ディープニューラルネットワークトレーニングやディープマトリックス因数分解のような非凸最適化問題において勾配に基づく手法の暗黙のバイアスを説明する鍵となる。
この幾何学を特徴づける中心的な量は、失われたヘッセンの最大固有値であり、風景の鋭さを測定する。
現在、このシャープネス尺度の正確な表現が一般的な設定では知られていないため、その正確な役割は難読化されている。
本稿では,Muraoff & Michaeli (2020) が提示した開問題を解決するため, 一般に過パラメータ化深度行列分解(ディープ・リニア・ニューラルネットワーク・トレーニング)問題において, 任意の最小化器における二乗誤差損失の Hessian の最大固有値に関する最初の正確な式を示す。
この理論を補完するため、我々は勾配に基づくトレーニング中に観察される脱出現象を、鋭さの正確な表現に決定的に依存する最小限で実証的に調査した。
関連論文リスト
- A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文 参考訳(メタデータ) (2024-06-06T01:52:09Z) - Deep linear networks for regression are implicitly regularized towards flat minima [4.806579822134391]
最小化器は任意に大きいシャープ性を持つが、任意に小さいものは持たない。
最小化器のシャープネスは, 深さとともに線形に成長する。
平らなミニマに対して暗黙の正則性を示す: 最小化器の鋭さは下界の1倍以下である。
論文 参考訳(メタデータ) (2024-05-22T08:58:51Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。