論文の概要: On Scaled Methods for Saddle Point Problems
- arxiv url: http://arxiv.org/abs/2206.08303v2
- Date: Wed, 21 Jun 2023 14:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 18:24:50.571825
- Title: On Scaled Methods for Saddle Point Problems
- Title(参考訳): サドルポイント問題に対するスケールド手法について
- Authors: Aleksandr Beznosikov, Aibek Alanov, Dmitry Kovalev, Martin
Tak\'a\v{c}, Alexander Gasnikov
- Abstract要約: 異なる特徴を適応的にスケーリングする手法は、サドルポイント問題を解決する上で重要な役割を果たす。
本稿では,サドル点問題の解法について,以下のスケーリング手法に関する理論的解析を行った。
- 参考スコア(独自算出の注目度): 119.11852898082967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods with adaptive scaling of different features play a key role in
solving saddle point problems, primarily due to Adam's popularity for solving
adversarial machine learning problems, including GANS training. This paper
carries out a theoretical analysis of the following scaling techniques for
solving SPPs: the well-known Adam and RmsProp scaling and the newer AdaHessian
and OASIS based on Hutchison approximation. We use the Extra Gradient and its
improved version with negative momentum as the basic method. Experimental
studies on GANs show good applicability not only for Adam, but also for other
less popular methods.
- Abstract(参考訳): 異なる特徴を適応的にスケーリングする手法は、主にGANSトレーニングを含む敵機械学習問題の解決にAdamが人気があるため、サドルポイント問題を解決する上で重要な役割を果たしている。
本稿では,Hutchison近似に基づくよく知られたAdamとRmsPropのスケーリングと,より新しいAdaHessianとOASISのスケーリング手法に関する理論的解析を行う。
基本手法としてExtra Gradientと負の運動量を持つ改良版を用いる。
GANに関する実験的研究は、Adamだけでなく、他のあまり普及していない方法にも良い適用性を示す。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Adam-family Methods with Decoupled Weight Decay in Deep Learning [3.4376560669160394]
非平滑な非平滑ネットワークに対する幅広いアダム族手法の収束特性について検討する。
提案手法では,Adam with Decoupled Weight Decay (AdamD) という新しいAdam- Family法を提案する。
論文 参考訳(メタデータ) (2023-10-13T04:59:44Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Generalized AdaGrad (G-AdaGrad) and Adam: A State-Space Perspective [0.0]
非機械学習問題の解法として,高速で一般化されたAdaGrad(G-AdaGrad)を提案する。
具体的には、G-AdaGradとAdamという収束加速アルゴリズムを解析するために状態空間の視点を採用する。
論文 参考訳(メタデータ) (2021-05-31T20:30:25Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。