Fugu-MT 論文翻訳(概要): Why Do We Need Weight Decay in Modern Deep Learning?

論文の概要: Why Do We Need Weight Decay in Modern Deep Learning?

arxiv url: http://arxiv.org/abs/2310.04415v1
Date: Fri, 6 Oct 2023 17:58:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-09 12:41:15.124832
Title: Why Do We Need Weight Decay in Modern Deep Learning?
Title（参考訳）: 現代のディープラーニングではなぜ体重減少が必要なのか?
Authors: Maksym Andriushchenko and Francesco D'Angelo and Aditya Varre and Nicolas Flammarion
Abstract要約: 重崩壊は、大規模言語モデルを含む最先端のディープネットワークを訓練する技術である。本研究では,現代深層学習における重量減衰の役割が,古典的学習理論で研究される正規化効果と異なる点を強調する。本稿では,SGDの非正規化を常に強調する最適化力学を,重み減衰がいかに修飾するかを示す。
参考スコア（独自算出の注目度）: 27.110071835818808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weight decay is a broadly used technique for training state-of-the-art deep networks, including large language models. Despite its widespread usage, its role remains poorly understood. In this work, we highlight that the role of weight decay in modern deep learning is different from its regularization effect studied in classical learning theory. For overparameterized deep networks, we show how weight decay modifies the optimization dynamics enhancing the ever-present implicit regularization of SGD via the loss stabilization mechanism. In contrast, for underparameterized large language models trained with nearly online SGD, we describe how weight decay balances the bias-variance tradeoff in stochastic optimization leading to lower training loss. Moreover, we show that weight decay also prevents sudden loss divergences for bfloat16 mixed-precision training which is a crucial tool for LLM training. Overall, we present a unifying perspective from ResNets on vision tasks to LLMs: weight decay is never useful as an explicit regularizer but instead changes the training dynamics in a desirable way. Our code is available at https://github.com/tml-epfl/why-weight-decay.
Abstract（参考訳）: 重みの減衰は、大規模言語モデルを含む最先端のディープネットワークを訓練するために広く使用される技術である。広く使われているが、その役割はよく分かっていない。本研究では,現代深層学習における体重減少の役割が,古典的学習理論における正規化効果と異なる点を強調する。過パラメータ深層ネットワークでは,重み減衰が最適化ダイナミクスを修飾し,損失安定化機構を介してsgdの常在する暗黙の正則化を促進することを示す。対照的に、ほぼオンラインのSGDで訓練された過度パラメータ付き大規模言語モデルでは、重みが確率的最適化におけるバイアス分散トレードオフとどのようにバランスを保ち、トレーニング損失を減少させるかを記述する。また, 重量減少はbfloat16混合適応訓練において突然の損失発散を防止し, llm訓練の重要な道具である。全体としては、視覚タスクに関するResNetsからLLMへの統一的な視点を示す: 体重減衰は明示的な正規化器として有用ではなく、望ましい方法でトレーニングダイナミクスを変更する。私たちのコードはhttps://github.com/tml-epfl/why-weight-decay.comで利用可能です。

関連論文リスト

Weight Decay may matter more than muP for Learning Rate Transfer in Practice [43.243484751818066]
muPのスケーリングルールは、層内の入力の幾何的アライメントに関する強い仮定と、その重みと勾配の更新に依存していることを示す。トレーニングの残り期間は、幅にまたがる内部表現の更新ダイナミクスを正しく安定化する muP よりも重量減衰である。このことは、muPのスケーリングが主に暗黙の学習率ウォームアップの形で機能し、修正されたウォームアップスケジュールで大きく置き換えることが可能であることを示唆している。
論文参考訳（メタデータ） (2025-10-21T21:36:14Z)
On the Role of Weight Decay in Collaborative Filtering: A Popularity Perspective [38.87580457343038]
CF (Collaborative Filtering) は, 歴史的ユーザ・イテムインタラクションからの情報を高密度ID埋め込みテーブルにエンコードすることで, 大規模レコメンデーションシステムを実現する。これらのパイプラインのコアコンポーネントの1つは非常に見過ごされている、と私たちは主張する。 PRISM(Popularity-awaRe Initialization Strategy for Embedd Magnitudes)を提案する。
論文参考訳（メタデータ） (2025-05-16T14:41:57Z)
Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。 SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。 SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文参考訳（メタデータ） (2024-11-03T23:36:53Z)
Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T20:58:01Z)
Improved Generalization of Weight Space Networks via Augmentations [53.87011906358727]
深度重み空間(DWS)における学習は新たな研究方向であり、2次元および3次元神経場(INRs, NeRFs)への応用我々は、この過度な適合の理由を実証的に分析し、主要な理由は、DWSデータセットの多様性の欠如であることがわかった。そこで本研究では,重み空間におけるデータ拡張戦略について検討し,重み空間に適応したMixUp法を提案する。
論文参考訳（メタデータ） (2024-02-06T15:34:44Z)
HyperSparse Neural Networks: Shifting Exploration to Exploitation through Adaptive Regularization [18.786142528591355]
スパースニューラルネットワークは、リソース効率のよい機械学習アプリケーションを開発する上で重要な要素である。本稿では,高密度をスパースネットワークに圧縮する適応正規化学習(ART)を提案する。本手法は,事前学習したモデル知識を最大級の重みに圧縮する。
論文参考訳（メタデータ） (2023-08-14T14:18:11Z)
Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文参考訳（メタデータ） (2022-03-27T03:26:31Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
FixNorm: Dissecting Weight Decay for Training Deep Neural Networks [7.820667552233989]
本研究では,2つのメカニズムを直接制御するFixNormという新しいトレーニング手法を提案する。 ImageNet分類タスクでは、FixNormによるEfficientNet-B0のトレーニングは77.7%を達成し、元のベースラインを明確なマージンで上回る。
論文参考訳（メタデータ） (2021-03-29T05:41:56Z)
The Implicit Biases of Stochastic Gradient Descent on Deep Neural Networks with Batch Normalization [44.30960913470372]
バッチ正規化(BN-DNN)を伴うディープニューラルネットワークは、その正規化操作のために重み付け再スケーリングには不変である。 BN-DNNにおける勾配降下(SGD)の暗黙バイアスについて検討し,重量減衰の有効性に関する理論的説明を行う。
論文参考訳（メタデータ） (2021-02-06T03:40:20Z)
On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective [90.39123717733334]
そこで本研究では,Shduled Weight Decay (SWD) 法と呼ばれる,減量のための最初の実用的なスケジューラを提案する。我々の実験は、SWDが実際に大きな勾配ノルムを緩和し、適応モーメント推定(Adam)の従来の定重崩壊戦略を著しく上回っていることも裏付けている。
論文参考訳（メタデータ） (2020-11-23T00:39:49Z)
Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文参考訳（メタデータ） (2020-02-26T15:40:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。