論文の概要: How do simple rotations affect the implicit bias of Adam?
- arxiv url: http://arxiv.org/abs/2510.23804v1
- Date: Mon, 27 Oct 2025 19:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.495333
- Title: How do simple rotations affect the implicit bias of Adam?
- Title(参考訳): 単純な回転はアダムの暗黙の偏見にどのように影響しますか。
- Authors: Adela DePavia, Vasileios Charisopoulos, Rebecca Willett,
- Abstract要約: 我々は、アダムの座標的事前条件スキームが、全体のメソッドが特徴空間の変換に敏感であることを示す。
この感度はAdamの競争上の優位性の逆転として表れることを示す。
- 参考スコア(独自算出の注目度): 11.374487003189467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive gradient methods such as Adam and Adagrad are widely used in machine learning, yet their effect on the generalization of learned models -- relative to methods like gradient descent -- remains poorly understood. Prior work on binary classification suggests that Adam exhibits a ``richness bias,'' which can help it learn nonlinear decision boundaries closer to the Bayes-optimal decision boundary relative to gradient descent. However, the coordinate-wise preconditioning scheme employed by Adam renders the overall method sensitive to orthogonal transformations of feature space. We show that this sensitivity can manifest as a reversal of Adam's competitive advantage: even small rotations of the underlying data distribution can make Adam forfeit its richness bias and converge to a linear decision boundary that is farther from the Bayes-optimal decision boundary than the one learned by gradient descent. To alleviate this issue, we show that a recently proposed reparameterization method -- which applies an orthogonal transformation to the optimization objective -- endows any first-order method with equivariance to data rotations, and we empirically demonstrate its ability to restore Adam's bias towards rich decision boundaries.
- Abstract(参考訳): アダムやアダグラードのような適応的な勾配法は機械学習で広く使われているが、勾配降下法のような手法と比較して学習モデルの一般化に対する影響はいまだよく分かっていない。
二項分類に関する以前の研究は、アダムが'リッチネスバイアス'を示しており、勾配降下に対するベイズ-最適決定境界に近い非線形決定境界を学習するのに役立つことを示唆している。
しかし、アダムが用いた座標的事前条件スキームは、全体の方法が特徴空間の直交変換に敏感であることを示す。
基礎となるデータ分布の小さな回転でさえ、Adamはリッチネスバイアスを排除し、勾配勾配よりもベイズ-最適決定境界から遠く離れた線形決定境界に収束する。
この問題を緩和するために、最近提案された直交変換を最適化目的に適用した再パラメータ化法は、データ回転に等しく任意の一階法を付与し、Adamのリッチな決定境界に対するバイアスを復元する能力を実証的に示す。
関連論文リスト
- The Rich and the Simple: On the Implicit Bias of Adam and SGD [26.722625797251553]
Adamは、いくつかのディープラーニングアプリケーションのためのデファクト最適化アルゴリズムである。
実際には、(確率的な)勾配降下(GD)で訓練されたニューラルネットワーク(NN)は、単純さのバイアスを示すことが知られている。
我々は、Adamがこのような単純さのバイアスに抵抗していることを示します。
論文 参考訳(メタデータ) (2025-05-29T21:46:12Z) - Stochastic Gradient Sampling for Enhancing Neural Networks Training [0.0]
我々はAdamアルゴリズムの新たな拡張であるStochGradAdamを紹介し、勾配サンプリング手法を取り入れた。
StochGradAdamは、イテレーション毎の勾配更新が少ない場合でも、Adamに匹敵する、あるいは優れたパフォーマンスを実現している。
その結果,このアプローチは大規模モデルやデータセットに特に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-25T22:45:31Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。