論文の概要: A Dynamics Theory of Implicit Regularization in Deep Low-Rank Matrix
Factorization
- arxiv url: http://arxiv.org/abs/2212.14150v2
- Date: Fri, 11 Aug 2023 07:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 17:31:37.306947
- Title: A Dynamics Theory of Implicit Regularization in Deep Low-Rank Matrix
Factorization
- Title(参考訳): 深い低ランク行列分解における入射正則化のダイナミクス理論
- Authors: Jian Cao, Chen Qian, Yihui Huang, Dicheng Chen, Yuncheng Gao, Jiyang
Dong, Di Guo, Xiaobo Qu
- Abstract要約: 暗黙の正則化は、ニューラルネットワークを解釈する重要な方法である。
最近の理論は、深い行列分解(DMF)モデルで暗黙の正則化を説明するようになった。
- 参考スコア(独自算出の注目度): 21.64166573203593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit regularization is an important way to interpret neural networks.
Recent theory starts to explain implicit regularization with the model of deep
matrix factorization (DMF) and analyze the trajectory of discrete gradient
dynamics in the optimization process. These discrete gradient dynamics are
relatively small but not infinitesimal, thus fitting well with the practical
implementation of neural networks. Currently, discrete gradient dynamics
analysis has been successfully applied to shallow networks but encounters the
difficulty of complex computation for deep networks. In this work, we introduce
another discrete gradient dynamics approach to explain implicit regularization,
i.e. landscape analysis. It mainly focuses on gradient regions, such as saddle
points and local minima. We theoretically establish the connection between
saddle point escaping (SPE) stages and the matrix rank in DMF. We prove that,
for a rank-R matrix reconstruction, DMF will converge to a second-order
critical point after R stages of SPE. This conclusion is further experimentally
verified on a low-rank matrix reconstruction problem. This work provides a new
theory to analyze implicit regularization in deep learning.
- Abstract(参考訳): 入射正則化はニューラルネットワークを解釈する重要な方法である。
最近の理論は、深い行列分解(DMF)モデルで暗黙の正則化を説明し始め、最適化過程における離散勾配ダイナミクスの軌跡を分析する。
これらの離散勾配力学は比較的小さいが無限小ではないため、ニューラルネットワークの実践的な実装に相応しい。
現在、離散勾配解析は浅層ネットワークに適用されているが、深層ネットワークでは複雑な計算が困難である。
本研究では,暗黙の正規化,すなわちランドスケープ解析を説明するために,別の離散勾配ダイナミクス手法を導入する。
主にサドルポイントやローカルミニマといった勾配領域に焦点を当てている。
DMFにおけるサドル点エスケープ(SPE)ステージと行列ランクの関係を理論的に確立する。
階数-R行列再構成において、DMF は SPE の R 段階の後に 2 階臨界点に収束することを示す。
この結論は低ランク行列再構成問題に対してさらに実験的に検証される。
この研究は、ディープラーニングにおける暗黙の正規化を分析する新しい理論を提供する。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - Deep Linear Networks for Matrix Completion -- An Infinite Depth Limit [10.64241024049424]
深層線形ネットワーク (DLN) は、過度にパラメータ化された学習アーキテクチャの勾配に基づく最適化における暗黙の正規化のためのモデルである。
厳密な解析と数値による行列完成のための幾何幾何学とトレーニングの関連について検討する。
暗黙の正則化は高状態空間体積に対する偏りの結果である。
論文 参考訳(メタデータ) (2022-10-22T17:03:10Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Support Vectors and Gradient Dynamics for Implicit Bias in ReLU Networks [45.886537625951256]
単一ニューロンReLUネットワークのトレーニングにおけるパラメータ空間の勾配流れのダイナミクスについて検討する。
具体的には、ReLUネットワークにおいて、なぜ、どのようにしてReLUネットワークが一般化されるかにおいて重要な役割を果たすサポートベクトルの観点で、暗黙のバイアスを発見できる。
論文 参考訳(メタデータ) (2022-02-11T08:55:58Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z) - Shallow Univariate ReLu Networks as Splines: Initialization, Loss
Surface, Hessian, & Gradient Flow Dynamics [1.5393457051344297]
本稿では,ReLU NN を連続的な線形スプラインとして再パラメータ化することを提案する。
我々は、その臨界点と固定点、ヘッセンスペクトル、およびヘッセンスペクトルを含む損失面の構造を驚くほど単純かつ透明に表現する。
Splineベースの可視化を使用した学習ダイナミクスのビデオはhttp://shorturl.at/tFWZ2.comで公開されている。
論文 参考訳(メタデータ) (2020-08-04T19:19:49Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。