論文の概要: Correction of Decoupled Weight Decay
- arxiv url: http://arxiv.org/abs/2512.08217v1
- Date: Tue, 09 Dec 2025 03:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.799058
- Title: Correction of Decoupled Weight Decay
- Title(参考訳): 脱カップリング重量減少の補正
- Authors: Jason Chuan-Chih Chou,
- Abstract要約: 我々は、分離重み崩壊$propto 2$は、更新が定常状態から独立になるという単純な仮定に基づいて、安定した重みノルムをもたらすと主張している。
分離したウェイト崩壊$propto 2$は、安定なウェイトと勾配ノルムをもたらし、トレーニングダイナミクスをよりよく制御し、モデル性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoupled weight decay, solely responsible for the performance advantage of AdamW over Adam, has long been set to proportional to learning rate $γ$ without questioning. Some researchers have recently challenged such assumption and argued that decoupled weight decay should be set $\propto γ^2$ instead based on orthogonality arguments at steady state. To the contrary, we find that eliminating the contribution of the perpendicular component of the update to the weight norm leads to little change to the training dynamics. Instead, we derive that decoupled weight decay $\propto γ^2$ results in stable weight norm based on the simple assumption that updates become independent of the weights at steady state, regardless of the nature of the optimizer. Based on the same assumption, we derive and empirically verify that the Total Update Contribution (TUC) of a minibatch under the Scion optimizer is better characterized by the momentum-dependent effective learning rate whose optimal value transfers and we show that decoupled weight decay $\propto γ^2$ leads to stable weight and gradient norms and allows us to better control the training dynamics and improve the model performance.
- Abstract(参考訳): アダムよりもアダムWの性能上の優位性にのみ責任を負う非結合重み崩壊は、疑わしいことなく学習率に比例して$γ$と設定されている。
一部の研究者はそのような仮定に挑戦し、代わりに定常状態の直交論に基づいて分離重み崩壊を$\propto γ^2$とするべきだと主張した。
それとは対照的に、更新の垂直成分のウェイトノルムへの寄与をなくすことで、トレーニングのダイナミクスにはほとんど変化がないことがわかった。
代わりに、分離されたウェイト崩壊$\propto γ^2$は、オプティマイザの性質に関係なく、更新が定常状態のウェイトから独立になるという単純な仮定に基づいて、安定したウェイトノルムをもたらす。
同じ仮定に基づいて、シオンオプティマイザの下でのミニバッチのトータル更新寄与(TUC)が、最適な値が転送される運動量依存の効果的な学習速度によりより優れていることを実証し、デカップリングウェイト崩壊$\propto γ^2$が安定なウェイトと勾配ノルムにつながり、トレーニングのダイナミクスをよりよく制御し、モデル性能を向上させることができることを示す。
関連論文リスト
- AdamHD: Decoupled Huber Decay Regularization for Language Model Pre-Training [0.2578242050187029]
AdamHuberDecayはAdamWのドロップイン代替品で、$ell$ペナルティを分離したスムーズなHuberレギュレータで置き換える。
GPT-2 と GPT-3 の事前学習実験により,AdamHuberDecay は壁面時間で 10-15% の速度で収束することが示された。
論文 参考訳(メタデータ) (2025-11-18T18:08:20Z) - Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。
SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。
SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文 参考訳(メタデータ) (2024-11-03T23:36:53Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Generalized Balancing Weights via Deep Neural Networks [0.0]
観測データから因果効果を推定することは、多くの領域において中心的な問題である。
離散的および連続的な介入の任意の混合による因果効果を推定するために、一般化バランスウェイト、ニューラルバランスウェイト(NBW)を提案する。
論文 参考訳(メタデータ) (2022-11-14T17:03:56Z) - Improving Robustness with Adaptive Weight Decay [8.096469295357737]
本稿では,各トレーニング中の重み減衰に対するハイパーパラメータ反復を自動調整する適応的重み減衰法を提案する。
この単純な修正は、ロバスト性に大きな改善をもたらす可能性があることを示す。
この手法には、学習率に対する感度の低下や重量ノルムの低下など、他の望ましい性質がある。
論文 参考訳(メタデータ) (2022-09-30T21:13:00Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Long-Tailed Recognition via Weight Balancing [66.03068252811993]
ナイーブトレーニングは、より高い精度で一般的なクラスに偏ったモデルを生成する。
重みのバランス、L2-正規化、重みの崩壊、MaxNormの3つの手法について検討する。
提案手法は,5つの標準ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-27T03:26:31Z) - On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective [90.39123717733334]
そこで本研究では,Shduled Weight Decay (SWD) 法と呼ばれる,減量のための最初の実用的なスケジューラを提案する。
我々の実験は、SWDが実際に大きな勾配ノルムを緩和し、適応モーメント推定(Adam)の従来の定重崩壊戦略を著しく上回っていることも裏付けている。
論文 参考訳(メタデータ) (2020-11-23T00:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。