論文の概要: Weight Norm Control
- arxiv url: http://arxiv.org/abs/2311.11446v1
- Date: Sun, 19 Nov 2023 23:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:18:07.593243
- Title: Weight Norm Control
- Title(参考訳): 重量規範制御
- Authors: Ilya Loshchilov
- Abstract要約: 重みの目標ノルムを0に設定することは準最適であり、他の目標ノルム値を考えることができる。
重みの減衰ではなく、重みのノルム制御を導入することの様々な意味について論じる。
- 参考スコア(独自算出の注目度): 1.4141453107129398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We note that decoupled weight decay regularization is a particular case of
weight norm control where the target norm of weights is set to 0. Any
optimization method (e.g., Adam) which uses decoupled weight decay
regularization (respectively, AdamW) can be viewed as a particular case of a
more general algorithm with weight norm control (respectively, AdamWN). We
argue that setting the target norm of weights to 0 can be suboptimal and other
target norm values can be considered. For instance, any training run where
AdamW achieves a particular norm of weights can be challenged by AdamWN
scheduled to achieve a comparable norm of weights. We discuss various
implications of introducing weight norm control instead of weight decay.
- Abstract(参考訳): 重みの目標ノルムが 0 に設定されるような重みの標準制御において、疎み付き重みの減衰正則化は特別な場合である。
分離重み減衰正規化(英語版)(AdamW)を用いる任意の最適化法(例:Adam)は、ウェイトノルム制御を持つより一般的なアルゴリズム(例:AdamWN)の特別な場合と見なすことができる。
重みの目標ノルムを0に設定することは準最適であり、他の目標ノルム値を考えることができる。
例えば、AdamWが特定の重みのノルムを達成する任意のトレーニングランは、同等の重みのノルムを達成する予定のAdamWNによって挑戦される。
重み減衰の代わりに重みノルム制御を導入することの様々な意味について論じる。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。
SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。
SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文 参考訳(メタデータ) (2024-11-03T23:36:53Z) - Decoupled Weight Decay for Any $p$ Norm [1.1510009152620668]
トレーニング中の正規化に$L_p$のブリッジをベースとした,スパーシフィケーションに対する単純かつ効果的なアプローチを検討する。
我々は、標準の$L$重み崩壊を任意の$p$ノルムに一般化する新しい重み崩壊スキームを導入する。
標準的な$L$正規化に匹敵する性能を維持しながら、非常に疎結合なネットワークにつながることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-16T18:02:15Z) - FedNAR: Federated Optimization with Normalized Annealing Regularization [54.42032094044368]
ウェイト崩壊の選択を探索し、ウェイト崩壊値が既存のFLアルゴリズムの収束に有意な影響を及ぼすことを確かめる。
我々は,既存のFLアルゴリズムにシームレスに統合可能なプラグインであるFederated Optimization with Normalized Annealing Regularization (FedNAR)を開発した。
論文 参考訳(メタデータ) (2023-10-04T21:11:40Z) - Penalising the biases in norm regularisation enforces sparsity [28.86954341732928]
この研究は、関数を表すのに必要なパラメータのノルムが、その第二微分の総変分によって与えられることを示し、$sqrt1+x2$ factorで重み付けされる。
特に、この重み付け係数はバイアス項のノルムが正規化されないときに消失する。
論文 参考訳(メタデータ) (2023-03-02T15:33:18Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Constraints on Hebbian and STDP learned weights of a spiking neuron [0.0]
体重正規化を伴うスパイキングニューロンに適用されるヒュービアンおよびstdp学習規則による重みの制約を解析した。
純粋なヘブリアン学習の場合、正規化された重みは補正項までの重みの促進確率に等しいことがわかります。
同様の関係はSTDPアルゴリズムでも得られ、正規化された重み値は重みの促進と移動確率の差を反映している。
論文 参考訳(メタデータ) (2020-12-14T16:09:12Z) - On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective [90.39123717733334]
そこで本研究では,Shduled Weight Decay (SWD) 法と呼ばれる,減量のための最初の実用的なスケジューラを提案する。
我々の実験は、SWDが実際に大きな勾配ノルムを緩和し、適応モーメント推定(Adam)の従来の定重崩壊戦略を著しく上回っていることも裏付けている。
論文 参考訳(メタデータ) (2020-11-23T00:39:49Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。