論文の概要: The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization
- arxiv url: http://arxiv.org/abs/2306.13239v1
- Date: Thu, 22 Jun 2023 23:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 14:07:54.304218
- Title: The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization
- Title(参考訳): 深い行列分解のための平坦度正規化の誘導バイアス
- Authors: Khashayar Gatmiry, Zhiyuan Li, Ching-Yao Chuang, Sashank Reddi, Tengyu
Ma, Stefanie Jegelka
- Abstract要約: この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
- 参考スコア(独自算出の注目度): 58.851514333119255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on over-parameterized neural networks have shown that the
stochasticity in optimizers has the implicit regularization effect of
minimizing the sharpness of the loss function (in particular, the trace of its
Hessian) over the family zero-loss solutions. More explicit forms of flatness
regularization also empirically improve the generalization performance.
However, it remains unclear why and when flatness regularization leads to
better generalization. This work takes the first step toward understanding the
inductive bias of the minimum trace of the Hessian solutions in an important
setting: learning deep linear networks from linear measurements, also known as
\emph{deep matrix factorization}. We show that for all depth greater than one,
with the standard Restricted Isometry Property (RIP) on the measurements,
minimizing the trace of Hessian is approximately equivalent to minimizing the
Schatten 1-norm of the corresponding end-to-end matrix parameters (i.e., the
product of all layer matrices), which in turn leads to better generalization.
We empirically verify our theoretical findings on synthetic datasets.
- Abstract(参考訳): 近年の超パラメータニューラルネットワークの研究により、オプティマイザの確率性はゼロロス解に対する損失関数(特にヘッセンの痕跡)のシャープさを最小化する暗黙の正規化効果を持つことが示されている。
より明示的な平坦性正規化形式は、一般化性能を実証的に改善する。
しかし、なぜ、いつ平坦性正規化がより良い一般化をもたらすのかは不明である。
この研究は、ヘッセン解の最小トレースの帰納的バイアスを理解するための第一歩として、線形測度から深い線形ネットワークを学習する('emph{deep matrix factorization} としても知られる)。
一以上の深さでは、標準の制限等尺性(RIP)により、ヘッセンのトレースを最小化することは、対応する終端行列パラメータ(すなわち、すべての層行列の積)のシャッテン1ノルムを最小化するのとほぼ同値であり、結果としてより一般化されることを示す。
合成データセットに関する理論的知見を実証的に検証した。
関連論文リスト
- Entrywise error bounds for low-rank approximations of kernel matrices [55.524284152242096]
切り抜き固有分解を用いて得られたカーネル行列の低ランク近似に対するエントリーワイド誤差境界を導出する。
重要な技術的革新は、小さな固有値に対応するカーネル行列の固有ベクトルの非局在化結果である。
我々は、合成および実世界のデータセットの集合に関する実証的研究により、我々の理論を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:26:25Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - FAM: Relative Flatness Aware Minimization [5.132856559837775]
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。
最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。
この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
論文 参考訳(メタデータ) (2023-07-05T14:48:24Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Demystifying the Global Convergence Puzzle of Learning
Over-parameterized ReLU Nets in Very High Dimensions [1.3401746329218014]
本稿では,超次元データ学習という難解なシナリオにおいて,グローバル収束現象をデミステマイズするための厳密な理論に焦点をあてる。
この説の主な要素は、それがそれがそれが事実であるということであり、それがそれが事実であるということであり、それが事実であるということであり、それがそれが事実であるということであり、それがそれがそれがそれが事実であるということであるということである、というものである。
論文 参考訳(メタデータ) (2022-06-05T02:14:21Z) - Flat minima generalize for low-rank matrix recovery [16.956238550063365]
ヘッセンのトレースによって測定された平坦なミニマは、標準的な統計的仮定の下で、基底の真理を正確に回復することを示す。
行列の完全化には弱い回復が確立されるが、実験的な証拠は正確な回復もここで成り立つことを示唆している。
論文 参考訳(メタデータ) (2022-03-07T22:35:20Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - To Each Optimizer a Norm, To Each Norm its Generalization [31.682969645989512]
過度なパラメータ化と過度なパラメータ化の条件下でのトレーニングデータを補間する線形モデルに対する最適化手法の暗黙的な正規化について検討する。
我々は、標準最大値 l2-margin への収束解析は任意であり、データによって誘導されるノルムの最小化がより良い一般化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-11T21:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。