論文の概要: The Implicit Bias of Adam on Separable Data
- arxiv url: http://arxiv.org/abs/2406.10650v1
- Date: Sat, 15 Jun 2024 14:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 23:23:59.288928
- Title: The Implicit Bias of Adam on Separable Data
- Title(参考訳): 分離可能なデータに関するAdamの暗黙のバイアス
- Authors: Chenyang Zhang, Difan Zou, Yuan Cao,
- Abstract要約: トレーニングデータが線形分離可能である場合、Adamは学習率の低下を達成する線形勾配に収束することを示す。
我々の結果は、アダムと(確率的な)子孫の違いを理論的観点から明らかにした。
- 参考スコア(独自算出の注目度): 27.451499849532176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam has become one of the most favored optimizers in deep learning problems. Despite its success in practice, numerous mysteries persist regarding its theoretical understanding. In this paper, we study the implicit bias of Adam in linear logistic regression. Specifically, we show that when the training data are linearly separable, Adam converges towards a linear classifier that achieves the maximum $\ell_\infty$-margin. Notably, for a general class of diminishing learning rates, this convergence occurs within polynomial time. Our result shed light on the difference between Adam and (stochastic) gradient descent from a theoretical perspective.
- Abstract(参考訳): Adam氏は、ディープラーニング問題において最も好まれる最適化者の1人になった。
実際に成功したにもかかわらず、理論的な理解については多くの謎が続いている。
本稿では,線形ロジスティック回帰におけるAdamの暗黙バイアスについて検討する。
具体的には、トレーニングデータが線形分離可能であるとき、Adamは最大$\ell_\infty$-marginを達成する線形分類器へ収束することを示す。
特に、学習率が減少する一般的なクラスでは、この収束は多項式時間内に起こる。
この結果から,Adamと(確率的)勾配勾配の差を理論的観点から明らかにした。
関連論文リスト
- Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models [23.520679217713685]
Adamは、他のタスクよりも大きなマージンで、大きな言語モデルでの勾配勾配よりも優れていることが示されている。
この性能ギャップの重要な要因は、言語タスクで見られる重み付きクラス不均衡であることを示す。
論文 参考訳(メタデータ) (2024-02-29T18:47:52Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。