論文の概要: Implicit Bias and Loss of Plasticity in Matrix Completion: Depth Promotes Low-Rankness
- arxiv url: http://arxiv.org/abs/2603.04703v1
- Date: Thu, 05 Mar 2026 00:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.017002
- Title: Implicit Bias and Loss of Plasticity in Matrix Completion: Depth Promotes Low-Rankness
- Title(参考訳): マトリックスコンプリートにおける難治性バイアスと可塑性損失:深さが低走行性を促進する
- Authors: Baekrok Shin, Chulhee Yun,
- Abstract要約: より深いネットワークで観測される暗黙の低ランクバイアスの背後にある重要なメカニズムとして結合力学を同定する。
深部モデルでは,低ランクバイアスによる可塑性損失が回避されているのに対し,分離された動的条件下で事前訓練された深部2ネットワークは,再開した訓練でも低ランクに収束しないことを示す。
- 参考スコア(独自算出の注目度): 26.883288932823163
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study matrix completion via deep matrix factorization (a.k.a. deep linear neural networks) as a simplified testbed to examine how network depth influences training dynamics. Despite the simplicity and importance of the problem, prior theory largely focuses on shallow (depth-2) models and does not fully explain the implicit low-rank bias observed in deeper networks. We identify coupled dynamics as a key mechanism behind this bias and show that it intensifies with increasing depth. Focusing on gradient flow under block-diagonal observations, we prove: (a) networks of depth $\geq 3$ exhibit coupling unless initialized diagonally, and (b) convergence to rank-1 occurs if and only if the dynamics is coupled -- resolving an open question by Menon (2024) for a family of initializations. We also revisit the loss of plasticity phenomenon in matrix completion (Kleinman et al., 2024), where pre-training on few observations and resuming with more degrades performance. We show that deep models avoid plasticity loss due to their low-rank bias, whereas depth-2 networks pre-trained under decoupled dynamics fail to converge to low-rank, even when resumed training (with additional data) satisfies the coupling condition -- shedding light on the mechanism behind this phenomenon.
- Abstract(参考訳): ネットワーク深度がトレーニング力学にどのように影響するかを簡易なテストベッドとして,DeepMatrix Factorization(ディープリニアニューラルネットワーク)による行列補完について検討した。
問題の単純さと重要性にもかかわらず、先行理論は主に浅層(深層-2)モデルに焦点を当てており、より深いネットワークで観測される暗黙の低ランクバイアスを完全に説明していない。
このバイアスの背後にある重要なメカニズムとして結合力学を同定し、深度を増すにつれて増大することを示す。
ブロック対角観測における勾配流に着目して、以下のことを証明する。
(a)深さ$\geq 3$のネットワークは、対角的に初期化されない限り結合を示し、
b) ランク 1 への収束は、力学が結合されているときのみ発生し、初期化の族に対するメノン (2024) による開問題を解決する。
また, マトリックス完成時の塑性現象の消失を再考する(Kleinman et al , 2024)。
深層モデルでは,低ランクバイアスによる可塑性損失が回避されているのに対して,分離された動的条件下で事前訓練されたディープ2ネットワークは,再訓練(追加データを含む)が結合条件を満たす場合においても,低ランクに収束しない。
関連論文リスト
- Neural Collapse under Gradient Flow on Shallow ReLU Networks for Orthogonally Separable Data [52.737775129027575]
直交分離可能なデータを分類するための2層ReLUネットワーク上の勾配流がニューラル・コラプス(NC)を示すことを示す。
NCの出現を促進するためのトレーニング力学の暗黙バイアスの役割を明らかにする。
論文 参考訳(メタデータ) (2025-10-24T01:36:19Z) - Provable Emergence of Deep Neural Collapse and Low-Rank Bias in $L^2$-Regularized Nonlinear Networks [8.271417588922336]
非線形活性化を伴うフィードフォワードネットワークの一般クラスに対して,ディープ・ニューラル・崩壊と低ランク・ウェイト行列の出現との関係を示す。
また, 深い神経崩壊構成のグローバルな最適性や, 補間最小点と大域的最適点の間の損失障壁の実用的欠如を証明した。
論文 参考訳(メタデータ) (2024-02-06T13:44:39Z) - Efficient Compression of Overparameterized Deep Models through
Low-Dimensional Learning Dynamics [10.673414267895355]
本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。
本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
論文 参考訳(メタデータ) (2023-11-08T23:57:03Z) - The Law of Parsimony in Gradient Descent for Learning Deep Linear
Networks [34.85235641812005]
我々は、データが低次元構造を持つ場合、学習力学において驚くべき「パシモニーの法則」を明らかにする。
この学習力学の単純さは、効率的なトレーニングとディープネットワークのより良い理解の両方に重大な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-06-01T21:24:53Z) - A Dynamics Theory of Implicit Regularization in Deep Low-Rank Matrix
Factorization [21.64166573203593]
暗黙の正則化は、ニューラルネットワークを解釈する重要な方法である。
最近の理論は、深い行列分解(DMF)モデルで暗黙の正則化を説明するようになった。
論文 参考訳(メタデータ) (2022-12-29T02:11:19Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - The Low-Rank Simplicity Bias in Deep Networks [46.79964271742486]
我々は、ディープネットワークが帰納的にバイアスを受けているという仮説を調査し、拡張する実験的な観察を行い、低い有効ランク埋め込みの解を見つける。
我々の主張は、実践的な学習パラダイム上の有限幅線形および非線形モデルに真であることを示すとともに、自然データ上では、これらがよく一般化される解であることを示す。
論文 参考訳(メタデータ) (2021-03-18T17:58:02Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。