論文の概要: Decoupled Orthogonal Dynamics: Regularization for Deep Network Optimizers
- arxiv url: http://arxiv.org/abs/2602.05136v1
- Date: Wed, 04 Feb 2026 23:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.670353
- Title: Decoupled Orthogonal Dynamics: Regularization for Deep Network Optimizers
- Title(参考訳): Decoupled Orthogonal Dynamics:Deep Network Optimizerの正規化
- Authors: Hao Chen, Jinghui Yuan, Hanmin Zhang,
- Abstract要約: 我々はマグニチュードと方向が異なる役割を担い、動的に分離されるべきであると主張している。
SGDスタイルの更新は1次元ノルム制御を処理し、Adamの適応的プレコンディショニングは接部分空間に限定される。
ビジョンと言語タスクの実験は、AdamOがAdamWに対する一般化と安定性を改善し、追加の複雑な制約を導入することなく実現していることを示している。
- 参考スコア(独自算出の注目度): 7.170491058218013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Is the standard weight decay in AdamW truly optimal? Although AdamW decouples weight decay from adaptive gradient scaling, a fundamental conflict remains: the Radial Tug-of-War. In deep learning, gradients tend to increase parameter norms to expand effective capacity while steering directions to learn features, whereas weight decay indiscriminately suppresses norm growth. This push--pull interaction induces radial oscillations, injecting noise into Adam's second-moment estimates and potentially degrading delicate tangential feature learning. We argue that magnitude and direction play distinct roles and should be decoupled in optimizer dynamics. We propose Orthogonal Dynamics Decoupling and instantiate it as AdamO: an SGD-style update handles the one-dimensional norm control, while Adam's adaptive preconditioning is confined to the tangential subspace. AdamO further incorporates curvature-adaptive radial step sizing and architecture-aware rules and projections for scale-invariant layers and low-dimensional parameters. Experiments on vision and language tasks show that AdamO improves generalization and stability over AdamW without introducing additional complex constraints.
- Abstract(参考訳): アダムWの標準重量減衰は本当に最適か?
アダムWは、適応的な勾配のスケーリングから重量減衰を分離するが、基本的な対立は、ラジアル・トゥグ・オブ・ワール(英語版)である。
ディープラーニングでは、勾配はパラメータノルムを増大させ、効果的なキャパシティを拡大する一方で、特徴を学習する方向を操縦する傾向にあるが、ウェイト崩壊はノルム成長を無差別に抑制する。
このプッシュプル相互作用は放射発振を誘導し、アダムの第2モーメント推定にノイズを注入し、微妙な特徴学習を低下させる可能性がある。
我々は、等級と方向が異なる役割を担い、最適化力学において分離されるべきであると主張している。
SGDスタイルの更新は1次元のノルム制御を処理し、Adamの適応的プレコンディショニングは接部分空間に限定される。
さらにAdamOは、スケール不変層と低次元パラメータの曲率適応型ラジアルステップサイズとアーキテクチャ対応ルールとプロジェクションを取り入れている。
ビジョンと言語タスクの実験は、AdamOがAdamWに対する一般化と安定性を改善し、追加の複雑な制約を導入することなく実現していることを示している。
関連論文リスト
- AdamHD: Decoupled Huber Decay Regularization for Language Model Pre-Training [0.2578242050187029]
AdamHuberDecayはAdamWのドロップイン代替品で、$ell$ペナルティを分離したスムーズなHuberレギュレータで置き換える。
GPT-2 と GPT-3 の事前学習実験により,AdamHuberDecay は壁面時間で 10-15% の速度で収束することが示された。
論文 参考訳(メタデータ) (2025-11-18T18:08:20Z) - Continuous-Time Analysis of Adaptive Optimization and Normalization [5.954511401622424]
適応最適化アルゴリズム、特にAdamとその変種AdamWは、現代のディープラーニングの基本コンポーネントである。
この研究は、AdamとAdamWの連続的な時間的定式化を示し、トレーニングダイナミクスの抽出可能な解析を容易にする。
論文 参考訳(メタデータ) (2024-11-08T18:07:55Z) - Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。
SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。
SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文 参考訳(メタデータ) (2024-11-03T23:36:53Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Learning High-Precision Bounding Box for Rotated Object Detection via
Kullback-Leibler Divergence [100.6913091147422]
既存の回転物体検出器は、主に水平検出パラダイムから受け継がれている。
本稿では,回転回帰損失の設計を帰納パラダイムから導出手法に変更することを目的としている。
論文 参考訳(メタデータ) (2021-06-03T14:29:19Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。