Fugu-MT 論文翻訳(概要): On Scaled Methods for Saddle Point Problems

論文の概要: On Scaled Methods for Saddle Point Problems

arxiv url: http://arxiv.org/abs/2206.08303v2
Date: Wed, 21 Jun 2023 14:26:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 18:24:50.571825
Title: On Scaled Methods for Saddle Point Problems
Title（参考訳）: サドルポイント問題に対するスケールド手法について
Authors: Aleksandr Beznosikov, Aibek Alanov, Dmitry Kovalev, Martin Tak\'a\v{c}, Alexander Gasnikov
Abstract要約: 異なる特徴を適応的にスケーリングする手法は、サドルポイント問題を解決する上で重要な役割を果たす。本稿では,サドル点問題の解法について,以下のスケーリング手法に関する理論的解析を行った。
参考スコア（独自算出の注目度）: 119.11852898082967
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Methods with adaptive scaling of different features play a key role in solving saddle point problems, primarily due to Adam's popularity for solving adversarial machine learning problems, including GANS training. This paper carries out a theoretical analysis of the following scaling techniques for solving SPPs: the well-known Adam and RmsProp scaling and the newer AdaHessian and OASIS based on Hutchison approximation. We use the Extra Gradient and its improved version with negative momentum as the basic method. Experimental studies on GANs show good applicability not only for Adam, but also for other less popular methods.
Abstract（参考訳）: 異なる特徴を適応的にスケーリングする手法は、主にGANSトレーニングを含む敵機械学習問題の解決にAdamが人気があるため、サドルポイント問題を解決する上で重要な役割を果たしている。本稿では,Hutchison近似に基づくよく知られたAdamとRmsPropのスケーリングと,より新しいAdaHessianとOASISのスケーリング手法に関する理論的解析を行う。基本手法としてExtra Gradientと負の運動量を持つ改良版を用いる。 GANに関する実験的研究は、Adamだけでなく、他のあまり普及していない方法にも良い適用性を示す。

関連論文リスト

In Search of Adam's Secret Sauce [11.215133680044005]
さまざまなデータ構成とスケールで1,300以上の言語モデルをトレーニングしています。符号付き運動量法は SGD よりも高速であるが、Adam と比較して一貫して性能が劣っている。この設定でAdam氏は、勾配の平均と分散を推定するための自然なオンラインアルゴリズムを実装している。
論文参考訳（メタデータ） (2025-05-27T23:30:18Z)
Averaged Adam accelerates stochastic optimization in the training of deep neural network approximations for partial differential equation and optimal control problems [5.052293146674794]
この研究は古典的なPolyak-Ruppert平均化アプローチにインスパイアされている。本研究では,Adam法の平均変種をディープラーニングネットワーク(DNN)の学習に適用する。それぞれの数値例では、採用される平均変種Adamは標準Adamと標準SGDよりも優れている。
論文参考訳（メタデータ） (2025-01-10T16:15:25Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
Adam-family Methods with Decoupled Weight Decay in Deep Learning [3.4376560669160394]
非平滑な非平滑ネットワークに対する幅広いアダム族手法の収束特性について検討する。提案手法では,Adam with Decoupled Weight Decay (AdamD) という新しいAdam- Family法を提案する。
論文参考訳（メタデータ） (2023-10-13T04:59:44Z)
A Control Theoretic Framework for Adaptive Gradient Optimizers in Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。最近の例にはAdaGradとAdamがある。我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文参考訳（メタデータ） (2022-06-04T17:55:33Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
Generalized AdaGrad (G-AdaGrad) and Adam: A State-Space Perspective [0.0]
非機械学習問題の解法として,高速で一般化されたAdaGrad(G-AdaGrad)を提案する。具体的には、G-AdaGradとAdamという収束加速アルゴリズムを解析するために状態空間の視点を採用する。
論文参考訳（メタデータ） (2021-05-31T20:30:25Z)
Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文参考訳（メタデータ） (2020-12-13T03:41:52Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。