論文の概要: Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime
- arxiv url: http://arxiv.org/abs/2510.26303v2
- Date: Sat, 01 Nov 2025 03:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 14:12:28.014959
- Title: Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime
- Title(参考訳): 分離可能なデータに対するサンプルごとのアダムの意図しないバイアス:フルバッチレジームからの逸脱
- Authors: Beomhan Baek, Minhak Song, Chulhee Yun,
- Abstract要約: アダムは深層学習の事実上のデファクトであるが、理論的な理解は限られている。
線形分離可能なデータに対するロジスティック回帰のために, インクリメンタルAdamの暗黙バイアス(ステップ毎に1つのサンプルを用いて)について検討した。
我々は、Adam が $ell_infty$-max-margin に確実に収束する構造化データセットのクラスを構築する。
- 参考スコア(独自算出の注目度): 26.492222550365735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adam [Kingma and Ba, 2015] is the de facto optimizer in deep learning, yet its theoretical understanding remains limited. Prior analyses show that Adam favors solutions aligned with $\ell_\infty$-geometry, but these results are restricted to the full-batch regime. In this work, we study the implicit bias of incremental Adam (using one sample per step) for logistic regression on linearly separable data, and we show that its bias can deviate from the full-batch behavior. To illustrate this, we construct a class of structured datasets where incremental Adam provably converges to the $\ell_2$-max-margin classifier, in contrast to the $\ell_\infty$-max-margin bias of full-batch Adam. For general datasets, we develop a proxy algorithm that captures the limiting behavior of incremental Adam as $\beta_2 \to 1$ and we characterize its convergence direction via a data-dependent dual fixed-point formulation. Finally, we prove that, unlike Adam, Signum [Bernstein et al., 2018] converges to the $\ell_\infty$-max-margin classifier for any batch size by taking $\beta$ close enough to 1. Overall, our results highlight that the implicit bias of Adam crucially depends on both the batching scheme and the dataset, while Signum remains invariant.
- Abstract(参考訳): Adam [Kingma and Ba, 2015] はディープラーニングのデファクトオプティマイザですが,その理論的理解は限定的です。
以前の分析では、Adamは$\ell_\infty$-geometryと整合した解を好むが、これらの結果はフルバッチ規則に制限されている。
本研究では、線形分離可能なデータに対するロジスティック回帰のために、インクリメンタルAdamの暗黙バイアス(ステップ毎に1つのサンプルを使用)について検討し、そのバイアスがフルバッチ動作から逸脱することを示した。
これを説明するために、フルバッチAdamの$\ell_\infty$-max-marginバイアスとは対照的に、インクリメンタルAdamが$\ell_2$-max-margin分類器に確実に収束する構造化データセットのクラスを構築する。
一般的なデータセットに対して、インクリメンタルアダムの制限挙動を$\beta_2 \to 1$としてキャプチャするプロキシアルゴリズムを開発し、データ依存の双対不動点定式化により収束方向を特徴付ける。
最後に、Adamと異なり、Signum (Bernstein et al , 2018) は、任意のバッチサイズに対して $\ell_\infty$-max-margin の分類器に収束する。
全体として、Adamの暗黙のバイアスはバッチ方式とデータセットの両方に大きく依存するが、Signumは不変である。
関連論文リスト
- Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks [38.11287525994738]
アダムの一般化にどのように影響するかに関する最初の理論的特徴を示す。
以上の結果から,AdamとAdamWはともに適切な重みの減衰を伴って貧弱なテスト誤差解に収束するが,そのミニバッチ変種はほぼゼロのテスト誤差を達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-13T12:48:22Z) - Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-08T13:19:26Z) - The Implicit Bias of Adam on Separable Data [27.451499849532176]
トレーニングデータが線形分離可能である場合、Adamは学習率の低下を達成する線形勾配に収束することを示す。
我々の結果は、アダムと(確率的な)子孫の違いを理論的観点から明らかにした。
論文 参考訳(メタデータ) (2024-06-15T14:39:37Z) - Implicit Bias of AdamW: $\ell_\infty$ Norm Constrained Optimization [5.896194021915813]
重量減衰を持つアダム(AdamW)は、言語モデリングタスクにおける優れた性能で広く評価されている。
我々はAdamWの利点を理解するために、暗黙的に制約付き最適化を行うことを示す。
フルバッチ設定では、AdamWが部分和が分岐する非増加学習率スケジュールに収束した場合、元の損失のKKT点に収束しなければならないことを示す。
論文 参考訳(メタデータ) (2024-04-05T23:56:50Z) - UAdam: Unified Adam-Type Algorithmic Framework for Non-Convex Stochastic
Optimization [20.399244578926474]
我々は,Adam型アルゴリズム(UAdam)の統一フレームワークを導入する。
これは、NAdamBound、AdaFom、Adanといった2階のモーメントの一般的な形式を備えている。
UAdam が定常点の近傍に収束して $mathcalO (1/T)$ となることを示す。
論文 参考訳(メタデータ) (2023-05-09T13:07:03Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。