論文の概要: Implicit Bias in Matrix Factorization and its Explicit Realization in a New Architecture
- arxiv url: http://arxiv.org/abs/2501.16322v1
- Date: Mon, 27 Jan 2025 18:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:11.182068
- Title: Implicit Bias in Matrix Factorization and its Explicit Realization in a New Architecture
- Title(参考訳): マトリックス因子化におけるインプリシットバイアスと新しいアーキテクチャにおける明示的実現
- Authors: Yikun Hou, Suvrit Sra, Alp Yurtsever,
- Abstract要約: 行列分解の勾配降下は、ほぼ低ランクな解に対する暗黙の偏りを示すことが知られている。
例えば、$Xapprox UDVtop$, $U$ と $V$ は標準球内で制約されるが、$D$ は、モデルが検索空間全体に広がるための対角係数である。
- 参考スコア(独自算出の注目度): 36.53793044674861
- License:
- Abstract: Gradient descent for matrix factorization is known to exhibit an implicit bias toward approximately low-rank solutions. While existing theories often assume the boundedness of iterates, empirically the bias persists even with unbounded sequences. We thus hypothesize that implicit bias is driven by divergent dynamics markedly different from the convergent dynamics for data fitting. Using this perspective, we introduce a new factorization model: $X\approx UDV^\top$, where $U$ and $V$ are constrained within norm balls, while $D$ is a diagonal factor allowing the model to span the entire search space. Our experiments reveal that this model exhibits a strong implicit bias regardless of initialization and step size, yielding truly (rather than approximately) low-rank solutions. Furthermore, drawing parallels between matrix factorization and neural networks, we propose a novel neural network model featuring constrained layers and diagonal components. This model achieves strong performance across various regression and classification tasks while finding low-rank solutions, resulting in efficient and lightweight networks.
- Abstract(参考訳): 行列分解の勾配降下は、ほぼ低ランクな解に対する暗黙の偏りを示すことが知られている。
既存の理論はしばしば反復の有界性を仮定するが、経験的にバイアスは非有界列でも持続する。
したがって、暗黙のバイアスはデータフィッティングの収束力学とは大きく異なる発散ダイナミクスによって引き起こされるという仮説を立てる。
X\approx UDV^\top$ ここでは、$U$と$V$は標準球内で制約されるが、$D$は、モデルが検索空間全体に広がるための対角係数である。
実験の結果, このモデルは初期化やステップサイズによらず強い暗黙バイアスを示し, ほぼ(ほぼ)低ランク解が得られることがわかった。
さらに,行列因数分解とニューラルネットワークの並列性を抽出し,拘束層と対角成分を特徴とするニューラルネットワークモデルを提案する。
このモデルは、低ランクな解を見つけながら、様々な回帰タスクや分類タスクにまたがって高い性能を達成し、効率的で軽量なネットワークを実現する。
関連論文リスト
- Subspace-Constrained Quadratic Matrix Factorization: Algorithm and Applications [1.689629482101155]
多様体学習における課題に対処するために,部分空間制約付き二次行列分解モデルを提案する。
このモデルは、接空間、正規部分空間、二次形式を含む重要な低次元構造を共同で学習するように設計されている。
その結果,本モデルは従来の手法よりも優れており,コア低次元構造を捉える上での頑健さと有効性を強調した。
論文 参考訳(メタデータ) (2024-11-07T13:57:53Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Layered Models can "Automatically" Regularize and Discover Low-Dimensional Structures via Feature Learning [6.109362130047454]
入力が線形変換を行い、次に非線形写像によって出力を予測する2層非パラメトリック回帰モデルについて検討する。
2層モデルが正規化を「自動的に」誘導し,特徴学習を容易にすることを示す。
論文 参考訳(メタデータ) (2023-10-18T06:15:35Z) - Deep Neural Networks for Nonparametric Interaction Models with Diverging
Dimension [6.939768185086753]
成長次元シナリオ (d$ grows with $n$ but at a slow rate) と高次元 (dgtrsim n$) の両方において、$kth$オーダーの非パラメトリック相互作用モデルを分析する。
特定の標準仮定の下では、デバイアスドディープニューラルネットワークは、$(n, d)$の両面において、極小値の最適値を達成している。
論文 参考訳(メタデータ) (2023-02-12T04:19:39Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - Intrinsic dimensionality and generalization properties of the
$\mathcal{R}$-norm inductive bias [4.37441734515066]
$mathcalR$-normは、2層ニューラルネットワークの誘導バイアスの基礎である。
これらの補間子は,データに適合するリッジ関数があっても,本質的に多変量関数であることがわかった。
論文 参考訳(メタデータ) (2022-06-10T18:33:15Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。