論文の概要: Low-rank bias, weight decay, and model merging in neural networks
- arxiv url: http://arxiv.org/abs/2502.17340v1
- Date: Mon, 24 Feb 2025 17:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:03.513061
- Title: Low-rank bias, weight decay, and model merging in neural networks
- Title(参考訳): ニューラルネットワークにおける低ランクバイアス、重量減衰、およびモデルマージ
- Authors: Ilja Kuzborskij, Yasin Abbasi Yadkori,
- Abstract要約: 我々は、L2$正規化でトレーニングされたディープニューラルネットワークのいくつかの特性を示す。
また、L2$正規化と低ランクバイアスによって実現されるマルチタスク学習現象についても検討した。
- 参考スコア(独自算出の注目度): 12.352761060862072
- License:
- Abstract: We explore the low-rank structure of the weight matrices in neural networks originating from training with Gradient Descent (GD) and Gradient Flow (GF) with $L2$ regularization (also known as weight decay). We show several properties of GD-trained deep neural networks, induced by $L2$ regularization. In particular, for a stationary point of GD we show alignment of the parameters and the gradient, norm preservation across layers, and low-rank bias: properties previously known in the context of GF solutions. Experiments show that the assumptions made in the analysis only mildly affect the observations. In addition, we investigate a multitask learning phenomenon enabled by $L2$ regularization and low-rank bias. In particular, we show that if two networks are trained, such that the inputs in the training set of one network are approximately orthogonal to the inputs in the training set of the other network, the new network obtained by simply summing the weights of the two networks will perform as well on both training sets as the respective individual networks. We demonstrate this for shallow ReLU neural networks trained by GD, as well as deep linear and deep ReLU networks trained by GF.
- Abstract(参考訳): ニューラルネットワークにおける重み行列の低ランク構造について,グラディエント・ディクセント(GD)とグラディエント・フロー(GF)によるトレーニングから導かれる。
L2$正規化によって誘導されるGD学習深層ニューラルネットワークの特性について述べる。
特に、GDの定常点について、パラメータと勾配の整列、層間のノルム保存、低ランクバイアス(以前はGF解の文脈で知られていた性質)を示す。
実験により、分析で得られた仮定は観察にわずかにしか影響しないことが示された。
さらに,$L2$正規化と低ランクバイアスによって実現されるマルチタスク学習現象について検討した。
特に,一方のネットワークのトレーニングセットの入力が他方のネットワークのトレーニングセットの入力とほぼ直交しているような2つのネットワークをトレーニングした場合,その2つのネットワークの重みを単純にまとめて得られる新しいネットワークは,それぞれのネットワークとして両方のトレーニングセットで同様に動作することを示す。
本稿では,GDで訓練した浅部ReLUニューラルネットワークとGFで訓練した深部線形および深部ReLUニューラルネットワークについて示す。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Adversarial Examples Exist in Two-Layer ReLU Networks for Low
Dimensional Linear Subspaces [24.43191276129614]
標準手法が非ロバストニューラルネットワークに繋がることを示す。
トレーニングアルゴリズムのスケールを縮小させるか、あるいは$L$正規化を加えることで、トレーニングされたネットワークが敵の摂動に対してより堅牢になることを示す。
論文 参考訳(メタデータ) (2023-03-01T19:10:05Z) - Computational Complexity of Learning Neural Networks: Smoothness and
Degeneracy [52.40331776572531]
ガウス入力分布下での学習深度3$ReLUネットワークはスムーズな解析フレームワークにおいても困難であることを示す。
この結果は, 局所擬似乱数発生器の存在についてよく研究されている。
論文 参考訳(メタデータ) (2023-02-15T02:00:26Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - A Unifying View on Implicit Bias in Training Linear Neural Networks [31.65006970108761]
線形ニューラルネットワークトレーニングにおける勾配流(無限小ステップサイズの勾配勾配勾配勾配)の暗黙バイアスについて検討する。
本稿では, ニューラルネットワークのテンソルの定式化について検討し, 完全連結型, 対角型, 畳み込み型ネットワークを特殊な場合として提案する。
論文 参考訳(メタデータ) (2020-10-06T06:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。