論文の概要: On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
- arxiv url: http://arxiv.org/abs/2602.15322v1
- Date: Tue, 17 Feb 2026 02:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.962797
- Title: On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
- Title(参考訳): アダプティブ・オプティマイザにおけるマスキング更新の有効性について
- Authors: Taejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie,
- Abstract要約: ランダムなマスキングパラメータの更新は、大規模言語モデルのトレーニングに非常に効果的であることを示す。
我々はモーメントアライメント・アライメント・アライメント・マスキング(Magma)を導入し,モーメントアライメント・アライメントを用いてマスク更新を変調する。
1Bモデルサイズでは、MagmaはAdamとMuonと比較して、パープレキシティを19%以上、そして9%以上削減する。
- 参考スコア(独自算出の注目度): 10.768690758267264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) relies almost exclusively on dense adaptive optimizers with increasingly sophisticated preconditioners. We challenge this by showing that randomly masking parameter updates can be highly effective, with a masked variant of RMSProp consistently outperforming recent state-of-the-art optimizers. Our analysis reveals that the random masking induces a curvature-dependent geometric regularization that smooths the optimization trajectory. Motivated by this finding, we introduce Momentum-aligned gradient masking (Magma), which modulates the masked updates using momentum-gradient alignment. Extensive LLM pre-training experiments show that Magma is a simple drop-in replacement for adaptive optimizers with consistent gains and negligible computational overhead. Notably, for the 1B model size, Magma reduces perplexity by over 19\% and 9\% compared to Adam and Muon, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練は、より洗練されたプリコンディショナーを備えた高密度適応最適化器にのみ依存する。
我々は、ランダムなマスキングパラメータの更新が極めて効果的であることを示し、マスク付きのRMSPropは、最近の最先端のオプティマイザを一貫して上回っていることを示す。
解析の結果、ランダムマスキングは、最適化軌道を滑らかにする曲率依存性の幾何正則化を誘導することが明らかとなった。
この発見により,モーメントアライメント・アライメント・アライメント・マスキング (Magma) を導入し,モーメントアライメント・アライメント・アライメントを用いてマスク更新を変調する。
拡張LDM事前学習実験により、Magmaは、一貫したゲインと無視可能な計算オーバーヘッドを持つ適応最適化器の単純なドロップイン置換であることが示された。
特に、1Bモデルサイズでは、MagmaはAdamとMuonと比較して、パープレキシティを19\%以上、9\%以上削減する。
関連論文リスト
- Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - Offline Preference Optimization via Maximum Marginal Likelihood Estimation [9.001971182501501]
この研究は、Marginal Likelihoodの推定のレンズを通してアライメントをリキャストする。
我々の新しいMMLベースの優先度最適化(MMPO)は、好ましいテキスト出力の辺りのログ類似度を最大化する。
MMPOは、基本モデルの汎用言語能力をよりよく保ちつつ、競争力や優良な選好アライメントを実現する。
論文 参考訳(メタデータ) (2025-10-27T00:15:57Z) - Scalable Min-Max Optimization via Primal-Dual Exact Pareto Optimization [66.51747366239299]
拡張ラグランジアンに基づくmin-max問題のスムーズな変種を提案する。
提案アルゴリズムは, 段階的戦略よりも目的数で拡張性が高い。
論文 参考訳(メタデータ) (2025-03-16T11:05:51Z) - ProxSparse: Regularized Learning of Semi-Structured Sparsity Masks for Pretrained LLMs [35.947829305609176]
ProxSparseは,正規化最適化によりマスク選択が可能な学習ベースのフレームワークである。
ProxSparseは従来提案していた半構造化マスク選択法より一貫して優れていた。
論文 参考訳(メタデータ) (2025-02-01T01:35:23Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Signal Processing Meets SGD: From Momentum to Filter [6.751292200515355]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。
本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。