論文の概要: Cautious Weight Decay
- arxiv url: http://arxiv.org/abs/2510.12402v1
- Date: Tue, 14 Oct 2025 11:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.295108
- Title: Cautious Weight Decay
- Title(参考訳): Cautious Weight (複数形 Cautious Weights)
- Authors: Lizhang Chen, Jonathan Li, Kaizhao Liang, Baiyu Su, Cong Xie, Nuo Wang Pierse, Chen Liang, Ni Lao, Qiang Liu,
- Abstract要約: Cautious Weight Decay (CWD) は、1行の非依存的な修正であり、符号が更新に一致したパラメータのみに重み減衰を適用する。
CWDはAdamW、Lion、Muonなどの座標のドロップイン変更である。
言語モデルの事前トレーニングとImageNet分類では、CWDは最終的な損失と精度を一貫して改善する。
- 参考スコア(独自算出の注目度): 23.198565281737896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Cautious Weight Decay (CWD), a one-line, optimizer-agnostic modification that applies weight decay only to parameter coordinates whose signs align with the optimizer update. Unlike standard decoupled decay, which implicitly optimizes a regularized or constrained objective, CWD preserves the original loss and admits a bilevel interpretation: it induces sliding-mode behavior upon reaching the stationary manifold, allowing it to search for locally Pareto-optimal stationary points of the unmodified objective. In practice, CWD is a drop-in change for optimizers such as AdamW, Lion, and Muon, requiring no new hyperparameters or additional tuning. For language model pre-training and ImageNet classification, CWD consistently improves final loss and accuracy at million- to billion-parameter scales.
- Abstract(参考訳): 本稿では,CWD (Cautious Weight Decay) を導入し,オプティマイザ更新に整合したパラメータ座標のみに重み減衰を施した一直線型オプティマイザに依存しない修正法を提案する。
正規化あるいは制約された目的を暗黙的に最適化する標準的な非結合崩壊とは異なり、CWDは元の損失を保ち、2段階の解釈を許容する。
実際には、CWDはAdamW、Lion、Muonのようなオプティマイザのドロップイン変更であり、新しいハイパーパラメータや追加チューニングを必要としない。
言語モデルの事前トレーニングとImageNet分類では、CWDは100万から10億のパラメータスケールで最終的な損失と精度を一貫して改善する。
関連論文リスト
- Closed-Form Last Layer Optimization [72.49151473937319]
正方形損失の下では、線形最終層重みに対する最適解は閉形式で知られている。
これは、バックボーン上の勾配降下ステップと最終層上のクローズドフォーム更新の交互に行われることを示す。
論文 参考訳(メタデータ) (2025-10-06T09:14:39Z) - A Unified Noise-Curvature View of Loss of Trainability [8.602734307457387]
継続的学習におけるトレーニング容易性(LoT)の喪失は、タスクが進化するにつれて、ステップが改善されなくなります。
バッチサイズ対応勾配雑音境界と曲率ボラティリティ制御境界の2つの相補的基準を導入する。
このしきい値を用いることで、各レイヤを安全な限界以下に維持する、単純なレイヤごとのスケジューラを構築します。
論文 参考訳(メタデータ) (2025-09-24T02:11:13Z) - SPRINT: Stochastic Performative Prediction With Variance Reduction [18.735898645810405]
Performative Prediction(PP)は、機械学習(ML)モデルのためのアルゴリズムフレームワークで、モデルのデプロイメントがトレーニングされたデータの分散に影響を与える。
本稿では,SSPS実験による性能予測という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-22T00:56:17Z) - Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。
SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。
SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文 参考訳(メタデータ) (2024-11-03T23:36:53Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Improving Robustness with Adaptive Weight Decay [8.096469295357737]
本稿では,各トレーニング中の重み減衰に対するハイパーパラメータ反復を自動調整する適応的重み減衰法を提案する。
この単純な修正は、ロバスト性に大きな改善をもたらす可能性があることを示す。
この手法には、学習率に対する感度の低下や重量ノルムの低下など、他の望ましい性質がある。
論文 参考訳(メタデータ) (2022-09-30T21:13:00Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。