論文の概要: AdamHD: Decoupled Huber Decay Regularization for Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2511.14721v1
- Date: Tue, 18 Nov 2025 18:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.25353
- Title: AdamHD: Decoupled Huber Decay Regularization for Language Model Pre-Training
- Title(参考訳): AdamHD: 言語モデルの事前トレーニングのための分離されたHuberの正規化
- Authors: Fu-Ming Guo, Yingfang Fan,
- Abstract要約: AdamHuberDecayはAdamWのドロップイン代替品で、$ell$ペナルティを分離したスムーズなHuberレギュレータで置き換える。
GPT-2 と GPT-3 の事前学習実験により,AdamHuberDecay は壁面時間で 10-15% の速度で収束することが示された。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adaptive optimizers with decoupled weight decay, such as AdamW, are the de facto standard for pre-training large transformer-based generative models. Yet the quadratic nature of the $\ell_2$ penalty embedded in weight decay drives all parameters toward the origin at the same rate, making the update vulnerable to rare but extreme gradient directions and often over-penalizing well-conditioned coordinates. We propose AdamHuberDecay, a drop-in replacement for AdamW that substitutes the $\ell_2$ penalty with a decoupled smooth Huber regularizer. The resulting update decays parameters quadratically while their magnitude remains below a threshold $δ$, and linearly ($\ell_1$-like) once they exceed $δ$, yielding (i) bounded regularization gradients, (ii) invariance to per-coordinate second-moment rescaling, and (iii) stronger sparsity pressure on overgrown weights. We derive the closed-form decoupled Huber decay step and show how to integrate it with any Adam-family optimizer at $O(1)$ extra cost. Extensive experiments on GPT-2 and GPT-3 pre-training demonstrate that AdamHuberDecay (a) converges 10-15% faster in wall-clock time, (b) reduces validation perplexity by up to 4 points, (c) delivers performance improvements of 2.5-4.7% across downstream tasks, and (d) yields visibly sparser weight histograms that translate into 20-30% memory savings after magnitude pruning, without tuning the decay coefficient beyond the default grid used for AdamW. Ablations confirm robustness to outlier gradients and large-batch regimes, together with theoretical analyses that bound the expected parameter norm under noisy updates. AdamHuberDecay therefore provides a simple, principled path toward more efficient and resilient training of next-generation foundational generative transformers.
- Abstract(参考訳): アダムWのような非結合重み崩壊を持つ適応オプティマイザは、大きなトランスフォーマーベースの生成モデルを事前学習するデファクトスタンダードである。
しかし、重量崩壊に埋め込まれた$\ell_2$のペナルティの二次的性質は、全てのパラメータを同じ速度で原点に向かって駆動し、更新は稀だが極度な勾配の方向に脆弱であり、よく調和された座標を過給することが多い。
我々はAdamWの代替品であるAdamHuberDecayを提案し、$\ell_2$のペナルティを分離したスムーズなHuber正規化器で置き換える。
結果として得られた更新はパラメータを2次的に減衰させ、その大きさは閾値$δ$以下であり、その値が$δ$を超えると線形($\ell_1$-like)となる。
(i)有界正規化勾配
二 第二モーメント再スケーリングの調整による相違、及び
(三)太りすぎの重みに対する空間圧の強いもの。
閉形式の疎結合ハマー崩壊ステップを導出し、任意のアダム科オプティマイザと組み合わせて$O(1)$余分なコストでそれを統合する方法を示す。
GPT-2およびGPT-3事前学習に関する広範囲な実験により、AdamHuberDecayが証明された
(a)ウォールタイムで10~15%早く収束する。
(b)検証難易度を最大4点まで低減する。
(c)ダウンストリームタスク間で2.5-4.7%のパフォーマンス改善を提供し、
(d)AdamWのデフォルトグリッドを超える減衰係数を調整することなく、大まかなプルーニング後に20~30%のメモリ節約に変換する、可視的にスペーサー重量ヒストグラムを出力する。
アブレーションは、ノイズの多い更新の下で期待されるパラメータノルムを束縛する理論解析とともに、外層勾配と大バッチ状態に対するロバスト性を確認する。
そのため、AdamHuberDecayは、より効率的でレジリエンスな次世代生成トランスのトレーニングに向けて、シンプルで原則化されたパスを提供する。
関連論文リスト
- Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - VAMO: Efficient Zeroth-Order Variance Reduction for SGD with Faster Convergence [6.574641780732972]
大規模非問題はディープラーニングでは一般的である。
ファーストオーダー(FO)は今日のベースラインとして機能する。
ZOアルゴリズムは計算量とメモリコストを減らす。
VAMOは、より少ない動的メモリ要求でこれらのゲインを達成する。
論文 参考訳(メタデータ) (2025-05-20T05:31:15Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Decoupled Weight Decay for Any $p$ Norm [1.1510009152620668]
トレーニング中の正規化に$L_p$のブリッジをベースとした,スパーシフィケーションに対する単純かつ効果的なアプローチを検討する。
我々は、標準の$L$重み崩壊を任意の$p$ノルムに一般化する新しい重み崩壊スキームを導入する。
標準的な$L$正規化に匹敵する性能を維持しながら、非常に疎結合なネットワークにつながることを実証的に実証した。
論文 参考訳(メタデータ) (2024-04-16T18:02:15Z) - Training \beta-VAE by Aggregating a Learned Gaussian Posterior with a
Decoupled Decoder [0.553073476964056]
VAEトレーニングの現在の実践は、しばしば、再構成の忠実さと、潜伏空間の連続性$/$$分散の間のトレードオフをもたらす。
本稿では,2つの損失の対角的機構の直観と注意深い解析を行い,VAEを訓練するための簡易で効果的な2段階法を提案する。
本手法は, 3次元頭蓋骨再建と形状完成を目的とした医療データセットを用いて評価し, 提案手法を用いてトレーニングしたVAEの有望な生成能力を示す。
論文 参考訳(メタデータ) (2022-09-29T13:49:57Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。