論文の概要: The Effect of Mini-Batch Noise on the Implicit Bias of Adam
- arxiv url: http://arxiv.org/abs/2602.01642v1
- Date: Mon, 02 Feb 2026 04:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.91082
- Title: The Effect of Mini-Batch Noise on the Implicit Bias of Adam
- Title(参考訳): アダムの入射バイアスに及ぼすミニバッチノイズの影響
- Authors: Matias D. Cattaneo, Boris Shigida,
- Abstract要約: 本稿では,ミニバッチノイズがAdamの暗黙の記憶バイアスにどのように影響するかを理解するための理論的枠組みを提案する。
大規模なバッチサイズの場合、メモリによる反正則化の規模が高くなる(一般化を促す)が、バッチサイズが小さくなると($に対する反正則化)依存が逆になる。
我々の一般化は、臨界バッチサイズのスケールにシフトするバッチサイズのスケールを結びつけます。
- 参考スコア(独自算出の注目度): 2.8647133890966994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With limited high-quality data and growing compute, multi-epoch training is gaining back its importance across sub-areas of deep learning. Adam(W), versions of which are go-to optimizers for many tasks such as next token prediction, has two momentum hyperparameters $(β_1, β_2)$ controlling memory and one very important hyperparameter, batch size, controlling (in particular) the amount mini-batch noise. We introduce a theoretical framework to understand how mini-batch noise influences the implicit bias of memory in Adam (depending on $β_1$, $β_2$) towards sharper or flatter regions of the loss landscape, which is commonly observed to correlate with the generalization gap in multi-epoch training. We find that in the case of large batch sizes, higher $β_2$ increases the magnitude of anti-regularization by memory (hurting generalization), but as the batch size becomes smaller, the dependence of (anti-)regulariation on $β_2$ is reversed. A similar monotonicity shift (in the opposite direction) happens in $β_1$. In particular, the commonly "default" pair $(β_1, β_2) = (0.9, 0.999)$ is a good choice if batches are small; for larger batches, in many settings moving $β_1$ closer to $β_2$ is much better in terms of validation accuracy in multi-epoch training. Moreover, our theoretical derivations connect the scale of the batch size at which the shift happens to the scale of the critical batch size. We illustrate this effect in experiments with small-scale data in the about-to-overfit regime.
- Abstract(参考訳): 高品質なデータや計算能力の増大によって、マルチエポックトレーニングは、ディープラーニングのサブ領域において、その重要性を取り戻そうとしている。
Adam(W) のバージョンは、次のトークン予測のような多くのタスクのためのゴーツーオプティマイザであり、2つの運動量ハイパーパラメータ $(β_1, β_2)$制御メモリと、1つの非常に重要なハイパーパラメータ、バッチサイズ、(特に)ミニバッチノイズを制御する。
本稿では,最小バッチノイズがAdam($β_1$,$β_2$)の記憶の暗黙バイアスにどのように影響するかを理解するための理論的枠組みを提案する。
大規模なバッチサイズの場合,高い$β_2$はメモリによる反正則化の規模を増大させる(一般化を促進する)が,バッチサイズが小さくなるにつれて,$β_2$に対する反正則化の依存性が逆転する。
同様の単調シフト(反対方向)は、$β_1$で起こる。
特に、一般的な"デフォルト"のペア$(β_1, β_2) = (0.9, 0.999)$はバッチが小さい場合のよい選択である。
さらに、我々の理論的導出は、臨界バッチサイズのスケールにシフトが起こるバッチサイズのスケールを結びつける。
本稿では, この効果を, 大規模データを用いた実証実験で説明する。
関連論文リスト
- Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful [69.57125049281993]
この作業は、バッチサイズ1まで、小さなバッチサイズを見直します。
小さいバッチサイズは安定してトレーニングし、より大きなバッチサイズよりもFLOP当たりのパフォーマンスが等しく、あるいは良好であることが分かりました。
論文 参考訳(メタデータ) (2025-07-09T17:57:36Z) - A Statistical Analysis of Deep Federated Learning for Intrinsically Low-dimensional Data [31.52603443208588]
本稿では,2段階サンプリングモデルにおけるディープフェデレート回帰の一般化特性について検討する。
その結果,エントロピー次元を特徴とする固有次元は,深層学習者の収束率を決定する上で重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-28T01:36:25Z) - Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。
大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。
低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文 参考訳(メタデータ) (2024-06-04T09:44:49Z) - Second-order Information Promotes Mini-Batch Robustness in Variance-Reduced Gradients [0.196629787330046]
目的関数の部分的な2次情報を組み込むことで、分散還元勾配法のミニバッチサイズに対するロバスト性を劇的に向上させることができることを示す。
本稿では,この現象をプロトタイプNewton(textttMb-SVRN$)アルゴリズムで示す。
論文 参考訳(メタデータ) (2024-04-23T05:45:52Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Dissecting the Effects of SGD Noise in Distinct Regimes of Deep Learning [3.0222726254970174]
勾配降下のノイズはディープニューラルネットワークの一般化に影響を及ぼす。
我々は,SGDノイズは訓練体制によって有害か,あるいは有用かを示す。
論文 参考訳(メタデータ) (2023-01-31T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。