論文の概要: Weight decay induces low-rank attention layers
- arxiv url: http://arxiv.org/abs/2410.23819v1
- Date: Thu, 31 Oct 2024 11:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:05.193449
- Title: Weight decay induces low-rank attention layers
- Title(参考訳): 軽量崩壊は低ランクの注意層を誘導する
- Authors: Seijin Kobayashi, Yassir Akram, Johannes Von Oswald,
- Abstract要約: ニューラルネットワークモデルのトレーニングにおいて,重量減衰の影響だけでなく,$L2$-regularizationも検討した。
重み劣化に最適化した場合, キークエリおよび値投影行列製品$W_KTW_Q, PW_V$が注目層内にあることが確認できた。
- 参考スコア(独自算出の注目度): 8.746774382296008
- License:
- Abstract: The effect of regularizers such as weight decay when training deep neural networks is not well understood. We study the influence of weight decay as well as $L2$-regularization when training neural network models in which parameter matrices interact multiplicatively. This combination is of particular interest as this parametrization is common in attention layers, the workhorse of transformers. Here, key-query, as well as value-projection parameter matrices, are multiplied directly with each other: $W_K^TW_Q$ and $PW_V$. We extend previous results and show on one hand that any local minimum of a $L2$-regularized loss of the form $L(AB^\top) + \lambda (\|A\|^2 + \|B\|^2)$ coincides with a minimum of the nuclear norm-regularized loss $L(AB^\top) + \lambda\|AB^\top\|_*$, and on the other hand that the 2 losses become identical exponentially quickly during training. We thus complement existing works linking $L2$-regularization with low-rank regularization, and in particular, explain why such regularization on the matrix product affects early stages of training. Based on these theoretical insights, we verify empirically that the key-query and value-projection matrix products $W_K^TW_Q, PW_V$ within attention layers, when optimized with weight decay, as usually done in vision tasks and language modelling, indeed induce a significant reduction in the rank of $W_K^TW_Q$ and $PW_V$, even in fully online training. We find that, in accordance with existing work, inducing low rank in attention matrix products can damage language model performance, and observe advantages when decoupling weight decay in attention layers from the rest of the parameters.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングにおける重み付け減衰などの正規化器の効果はよく理解されていない。
本稿では,パラメータ行列が乗法的に相互作用するニューラルネットワークモデルのトレーニングにおいて,重量減衰の影響と,L2$-regularizationの効果について検討する。
この組み合わせは、このパラメトリゼーションが、トランスフォーマーの作業場である注意層でよく見られるため、特に興味深い。
ここではキークエリと値投影パラメータ行列が直接乗算される:$W_K^TW_Q$と$PW_V$。
L2$-regularized loss of the form $L(AB^\top) + \lambda (\|A\|^2 + \|B\|^2)$は核ノルム正規化損失の最小値と一致する。
したがって、我々は、$L2$-regularizationと低ランク正則化をリンクする既存の研究を補完し、特に、行列積上のそのような正則化がトレーニングの初期段階に影響を与える理由を説明する。
これらの理論的知見に基づき、キークエリおよび値投影行列製品である$W_K^TW_Q, PW_V$が、視覚タスクや言語モデリングで通常行われているように重量減衰に最適化された場合、完全にオンライントレーニングであっても、$W_K^TW_Q$と$PW_V$のランクが大幅に低下することが実証的に検証された。
既存の研究によると,注目行列生成物の低ランク化は言語モデルの性能を損なう可能性があり,他のパラメータから注目層で重みが崩壊する際の利点を観察できることがわかった。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - On Characterizing and Mitigating Imbalances in Multi-Instance Partial Label Learning [57.18649648182171]
我々は、MI-PLLの文脈において、これまで研究されていない問題に対処するためのコントリビューションを行っている。
最小限の仮定をしながら、クラス固有のMI-PLLのリスク境界を導出する。
我々の理論は、$sigma$が学習の不均衡に大きな影響を及ぼすというユニークな現象を明らかにしている。
論文 参考訳(メタデータ) (2024-07-13T20:56:34Z) - Decoupled Weight Decay for Any $p$ Norm [1.1510009152620668]
トレーニング中の正規化に$L_p$のブリッジをベースとした,スパーシフィケーションに対する単純かつ効果的なアプローチを検討する。
我々は、標準の$L$重み崩壊を任意の$p$ノルムに一般化する新しい重み崩壊スキームを導入する。
標準的な$L$正規化に匹敵する性能を維持しながら、非常に疎結合なネットワークにつながることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-16T18:02:15Z) - Asymmetry in Low-Rank Adapters of Foundation Models [47.310550805920585]
本稿では、低ランクアダプタ行列の重要性において、予期せぬ非対称性を特徴付け、活用する。
我々は、細調整の$B$が、細調整の$A$よりも本質的に効果的であることを示し、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に機能することを示します。
論文 参考訳(メタデータ) (2024-02-26T18:59:12Z) - A Unified Scheme of ResNet and Softmax [8.556540804058203]
回帰問題を理論的に解析する: $| langle exp(Ax) + A x, bf 1_n rangle-1 ( exp(Ax) + Ax )
この回帰問題は、ソフトマックス回帰とResNetを組み合わせた統一的なスキームである。
論文 参考訳(メタデータ) (2023-09-23T21:41:01Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Nonparametric regression with modified ReLU networks [77.34726150561087]
ネットワーク重み行列を入力ベクトルに乗じる前に,まず関数$alpha$で修正したReLUニューラルネットワークによる回帰推定を考察する。
論文 参考訳(メタデータ) (2022-07-17T21:46:06Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time [12.348083977777833]
我々は、損失関数によって引き起こされる経験的リスクを最小限に抑えるために、多層超並列ニューラルネットワークを訓練する問題を考察する。
本研究では,イテレーション毎のトレーニングコストの削減方法を示す。
論文 参考訳(メタデータ) (2021-12-14T18:13:36Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。