論文の概要: The Rich and the Simple: On the Implicit Bias of Adam and SGD
- arxiv url: http://arxiv.org/abs/2505.24022v1
- Date: Thu, 29 May 2025 21:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.675114
- Title: The Rich and the Simple: On the Implicit Bias of Adam and SGD
- Title(参考訳): The Rich and the Simple: On the Implicit Bias of Adam and SGD
- Authors: Bhavya Vasudeva, Jung Whan Lee, Vatsal Sharan, Mahdi Soltanolkotabi,
- Abstract要約: Adamは、いくつかのディープラーニングアプリケーションのためのデファクト最適化アルゴリズムである。
実際には、(確率的な)降下勾配(GD)で訓練されたニューラルネットワークは、単純さのバイアスを示すことが知られている。
我々は、Adamがこのような単純さのバイアスに抵抗していることを示します。
- 参考スコア(独自算出の注目度): 22.211512632184398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adam is the de facto optimization algorithm for several deep learning applications, but an understanding of its implicit bias and how it differs from other algorithms, particularly standard first-order methods such as (stochastic) gradient descent (GD), remains limited. In practice, neural networks trained with SGD are known to exhibit simplicity bias -- a tendency to find simple solutions. In contrast, we show that Adam is more resistant to such simplicity bias. To demystify this phenomenon, in this paper, we investigate the differences in the implicit biases of Adam and GD when training two-layer ReLU neural networks on a binary classification task involving synthetic data with Gaussian clusters. We find that GD exhibits a simplicity bias, resulting in a linear decision boundary with a suboptimal margin, whereas Adam leads to much richer and more diverse features, producing a nonlinear boundary that is closer to the Bayes' optimal predictor. This richer decision boundary also allows Adam to achieve higher test accuracy both in-distribution and under certain distribution shifts. We theoretically prove these results by analyzing the population gradients. To corroborate our theoretical findings, we present empirical results showing that this property of Adam leads to superior generalization across datasets with spurious correlations where neural networks trained with SGD are known to show simplicity bias and don't generalize well under certain distributional shifts.
- Abstract(参考訳): アダムはいくつかのディープラーニングアプリケーションのためのデファクト最適化アルゴリズムであるが、その暗黙のバイアスと他のアルゴリズム、特に(確率的な)勾配勾配(GD)のような標準的な一階述語法との違いの理解は依然として限られている。
実際には、SGDでトレーニングされたニューラルネットワークは、単純さのバイアスを示すことが知られている。
対照的に、Adamはそのような単純さのバイアスに抵抗的であることを示す。
本稿では, ガウスクラスタを用いた合成データを含む二層分類タスクにおいて, 2層ReLUニューラルネットワークをトレーニングする場合のAdamとGDの暗黙バイアスの差について検討する。
我々はGDが単純さに偏りを示し、線形決定境界が最適下限となるのに対し、Adamはよりリッチで多様な特徴を導き、ベイズの最適予測器に近い非線形境界を生み出すことを発見した。
このよりリッチな決定境界により、Adamは分布内および特定の分布シフトの下で高いテスト精度を達成できる。
人口勾配を解析することにより,これらの結果を理論的に証明する。
本研究では,Adamのこの性質が,SGDで学習したニューラルネットワークが単純さのバイアスを示すことが知られ,特定の分布シフトの下では十分に一般化できないという,突発的な相関関係を持つデータセット間の優れた一般化をもたらすことを示す実験結果を示す。
関連論文リスト
- Graph Out-of-Distribution Generalization via Causal Intervention [69.70137479660113]
本稿では,ノードレベルの分散シフトの下で頑健なグラフニューラルネットワーク(GNN)をトレーニングするための,概念的に単純だが原則化されたアプローチを提案する。
本手法は,環境推定器と熟練GNN予測器を協調する因果推論に基づく新たな学習目標を提案する。
本モデルでは,様々な分散シフトによる一般化を効果的に向上し,グラフOOD一般化ベンチマーク上での最先端の精度を最大27.4%向上させることができる。
論文 参考訳(メタデータ) (2024-02-18T07:49:22Z) - AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。
本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。
我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。
本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-12-01T20:15:15Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。