Fugu-MT 論文翻訳(概要): Understanding Adam Requires Better Rotation Dependent Assumptions

論文の概要: Understanding Adam Requires Better Rotation Dependent Assumptions

arxiv url: http://arxiv.org/abs/2410.19964v1
Date: Fri, 25 Oct 2024 20:53:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.706117
Title: Understanding Adam Requires Better Rotation Dependent Assumptions
Title（参考訳）: ローテーション依存の見積もりを改善するAdamを理解する
Authors: Lucas Maes, Tianyue H. Zhang, Alexia Jolicoeur-Martineau, Ioannis Mitliagkas, Damien Scieur, Simon Lacoste-Julien, Charles Guille-Escuret,
Abstract要約: グラディエント・Descent (SGD) に対するアダムの優位性は、包括的な理論的な説明を欠いている。トレーニング変圧器におけるアダムの性能はパラメータ空間のランダムな回転の下で劣化することを示す。これは、従来の回転不変仮定がアダムの利点を理論的に捉えるには不十分であることを示している。
参考スコア（独自算出の注目度）: 32.83347199566283
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite its widespread adoption, Adam's advantage over Stochastic Gradient Descent (SGD) lacks a comprehensive theoretical explanation. This paper investigates Adam's sensitivity to rotations of the parameter space. We demonstrate that Adam's performance in training transformers degrades under random rotations of the parameter space, indicating a crucial sensitivity to the choice of basis. This reveals that conventional rotation-invariant assumptions are insufficient to capture Adam's advantages theoretically. To better understand the rotation-dependent properties that benefit Adam, we also identify structured rotations that preserve or even enhance its empirical performance. We then examine the rotation-dependent assumptions in the literature, evaluating their adequacy in explaining Adam's behavior across various rotation types. This work highlights the need for new, rotation-dependent theoretical frameworks to fully understand Adam's empirical success in modern machine learning tasks.
Abstract（参考訳）: 広く採用されているにもかかわらず、SGD(Stochastic Gradient Descent)に対するアダムの優位性には包括的な理論的説明がない。本稿では,パラメータ空間の回転に対するアダムの感度について検討する。トレーニング変圧器におけるアダムの性能はパラメータ空間のランダムな回転の下で劣化し、基底の選択に重要な感度を示す。これは、従来の回転不変仮定がアダムの利点を理論的に捉えるには不十分であることを示している。アダムに利益をもたらす回転依存特性をよりよく理解するために、経験的性能を保ち、さらに強化する構造的回転も同定する。次に、文献における回転に依存した仮定を考察し、アダムの振る舞いを様々な回転タイプで説明する上で、それらの妥当性を評価する。この研究は、Adamの現代の機械学習タスクにおける経験的成功を完全に理解するために、新しい回転依存理論フレームワークの必要性を強調している。

関連論文リスト

Is your batch size the problem? Revisiting the Adam-SGD gap in language modeling [36.106114687828395]
言語モデルでは、AdamはGradient Descent(SGD)よりもはるかに優れていることが知られている。我々は,SGDとAdamのギャップに運動量,勾配クリッピング,バッチサイズがどのような影響を及ぼすか,徹底的に検討した。
論文参考訳（メタデータ） (2025-06-14T15:37:31Z)
In Search of Adam's Secret Sauce [11.215133680044005]
さまざまなデータ構成とスケールで1,300以上の言語モデルをトレーニングしています。符号付き運動量法は SGD よりも高速であるが、Adam と比較して一貫して性能が劣っている。この設定でAdam氏は、勾配の平均と分散を推定するための自然なオンラインアルゴリズムを実装している。
論文参考訳（メタデータ） (2025-05-27T23:30:18Z)
Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps [65.64965527170156]
我々は、強化学習に広く用いられているAdam optimiserに適応する。我々は、Adam-Relがエポック内で局所的なタイムステップを使用しており、基本的にターゲット変更後のAdamのタイムステップを0にリセットしていることを示す。次に,RLにおいて勾配ノルムの増加が生じることを示すとともに,理論モデルと観測データとの差について検討する。
論文参考訳（メタデータ） (2024-12-22T18:01:08Z)
The Implicit Bias of Adam on Separable Data [27.451499849532176]
トレーニングデータが線形分離可能である場合、Adamは学習率の低下を達成する線形勾配に収束することを示す。我々の結果は、アダムと(確率的な)子孫の違いを理論的観点から明らかにした。
論文参考訳（メタデータ） (2024-06-15T14:39:37Z)
Noise Is Not the Main Factor Behind the Gap Between SGD and Adam on Transformers, but Sign Descent Might Be [16.170888329408353]
大規模なバッチを持つAdamの挙動は、運動量を持つ符号降下と類似していることが示される。我々は,SGDとAdamのパフォーマンスギャップにおいて,重み付けノイズと重み付けノイズが重要な要因ではないことを示す。
論文参考訳（メタデータ） (2023-04-27T05:41:13Z)
Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文参考訳（メタデータ） (2022-08-21T14:57:47Z)
Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。 AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文参考訳（メタデータ） (2022-01-31T21:00:55Z)
A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文参考訳（メタデータ） (2021-12-07T02:47:58Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate and Momentum [97.84312669132716]
我々は,アダム力学の適応学習率とモメンタムがサドルポイントエスケープおよびフラットミニマ選択に与える影響を解消する。提案手法は,SGD法や従来の適応勾配法よりも大幅に一般化可能であることを示す。
論文参考訳（メタデータ） (2020-06-29T05:21:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。