論文の概要: Adaptive Batch Sizes Using Non-Euclidean Gradient Noise Scales for Stochastic Sign and Spectral Descent
- arxiv url: http://arxiv.org/abs/2602.03001v1
- Date: Tue, 03 Feb 2026 02:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.188945
- Title: Adaptive Batch Sizes Using Non-Euclidean Gradient Noise Scales for Stochastic Sign and Spectral Descent
- Title(参考訳): 非ユークリッド勾配雑音尺度を用いた確率符号とスペクトル発振の適応的バッチサイズ
- Authors: Hiroki Naganuma, Shagun Gupta, Youssef Briki, Ioannis Mitliagkas, Irina Rish, Parameswaran Raman, Hao-Jun Michael Shi,
- Abstract要約: 勾配雑音尺度(GNS)に基づく既存の適応戦略は、原則的な代替手段を提供する。
それぞれの双対ノルムの幾何から自然に現れる符号SGDとSpecSGDの勾配雑音メトリクスを導出する。
実験により,非ユークリッドノルムを用いた適応型バッチサイズ戦略により,定型バッチベースラインの検証損失を最大66%削減できることを確認した。
- 参考スコア(独自算出の注目度): 21.698853170807684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To maximize hardware utilization, modern machine learning systems typically employ large constant or manually tuned batch size schedules, relying on heuristics that are brittle and costly to tune. Existing adaptive strategies based on gradient noise scale (GNS) offer a principled alternative. However, their assumption of SGD's Euclidean geometry creates a fundamental mismatch with popular optimizers based on generalized norms, such as signSGD / Signum ($\ell_\infty$) and stochastic spectral descent (specSGD) / Muon ($\mathcal{S}_\infty$). In this work, we derive gradient noise scales for signSGD and specSGD that naturally emerge from the geometry of their respective dual norms. To practically estimate these non-Euclidean metrics, we propose an efficient variance estimation procedure that leverages the local mini-batch gradients on different ranks in distributed data-parallel systems. Our experiments demonstrate that adaptive batch size strategies using non-Euclidean GNS enable us to match the validation loss of constant-batch baselines while reducing training steps by up to 66% for Signum and Muon on a 160 million parameter Llama model.
- Abstract(参考訳): ハードウェア利用を最大化するために、現代の機械学習システムは、通常、不安定でチューニングにコストがかかるヒューリスティックに依存して、大きな定数または手動で調整されたバッチサイズスケジュールを使用する。
勾配雑音尺度(GNS)に基づく既存の適応戦略は、原則的な代替手段を提供する。
しかしながら、SGD のユークリッド幾何学の仮定は、符号SGD / Signum ($\ell_\infty$) や確率スペクトル降下 (specSGD) / Muon ($\mathcal{S}_\infty$) のような一般化されたノルムに基づいて、一般的なオプティマイザとの基本的なミスマッチを生成する。
本研究では,各双対ノルムの幾何から自然に現れる符号SGDとSpecSGDの勾配雑音尺度を導出する。
分散データ並列システムにおいて,これらの非ユークリッド測度を現実的に推定するために,局所的なミニバッチ勾配を利用する効率的な分散推定手法を提案する。
実験により,非ユークリッド GNS を用いた適応バッチサイズ戦略により,定数バッチベースラインのバリデーション損失を最大66%削減すると同時に,1億6000万パラメータ Llama モデル上での Signum と Muon のトレーニングステップを最大66%削減できることを示した。
関連論文リスト
- Adaptive Stepsizing for Stochastic Gradient Langevin Dynamics in Bayesian Neural Networks [3.0102563923286856]
SA-SGLDを導入し, 時間再スケーリングを用いて, 監視量に応じて段差を変調する手法を提案する。
提案手法は, 高精度な2次元玩具のSGLDや, シャープな先行画像を用いたBNN画像の分類において, SGLDよりも高精度な後方サンプリングを実現することができることを示す。
論文 参考訳(メタデータ) (2025-11-11T13:15:17Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - S-SGD: Symmetrical Stochastic Gradient Descent with Weight Noise
Injection for Reaching Flat Minima [22.46916792590578]
勾配降下法(SGD)はディープニューラルネットワーク(DNN)訓練に最も広く用いられている。
SGD法を用いて, 平坦な最小値を求めるため, 軽量ノイズ注入法が広く研究されている。
重みに対称雑音を加えるSGD法を考案した。
論文 参考訳(メタデータ) (2020-09-05T07:02:02Z) - On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs [37.96456928567548]
一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
論文 参考訳(メタデータ) (2020-06-03T17:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。