Fugu-MT 論文翻訳(概要): AdaGrad under Anisotropic Smoothness

論文の概要: AdaGrad under Anisotropic Smoothness

arxiv url: http://arxiv.org/abs/2406.15244v2
Date: Mon, 14 Oct 2024 03:44:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 08:37:18.458272
Title: AdaGrad under Anisotropic Smoothness
Title（参考訳）: 異方性平滑下におけるAdaGrad
Authors: Yuxing Liu, Rui Pan, Tong Zhang,
Abstract要約: 本稿では,新しい異方性一般化された滑らか性仮定を提案し,これに対応するアダグラードの解析を行う。異方的滑らかさと雑音条件下では、AdaGradはより良い次元依存度でより高速な収束を保証することができる。
参考スコア（独自算出の注目度）: 10.995979046710893
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adaptive gradient methods have been widely adopted in training large-scale deep neural networks, especially large foundation models. Despite the huge success in practice, their theoretical advantages over classical gradient methods with uniform step sizes across all coordinates (e.g. SGD) have not been fully understood, especially in the large batch-size setting commonly used in practice. This is because the only theoretical result that can demonstrate this benefit was obtained in the original paper of Adagrad for convex nonsmooth objective functions, which is insufficient for large batch algorithms. In this work, we attempt to resolve this gap between theory and practice by proposing a novel anisotropic generalized smoothness assumption and providing corresponding analyses of Adagrad. It is shown that under anisotropic smoothness and noise conditions, AdaGrad can achieve faster convergence guarantees in terms of better dimensional dependence than algorithms with uniform step sizes across all coordinates. Experiments in logistic regression and instruction following fine-tuning tasks provide strong evidence to support our novel assumption and theoretical analysis.
Abstract（参考訳）: 適応勾配法は大規模ディープニューラルネットワーク、特に大規模基盤モデルの訓練に広く採用されている。実際には大きな成功にもかかわらず、すべての座標(例えばSGD)にまたがる一様ステップサイズを持つ古典的な勾配法に対する理論上の優位性は、特に実際に一般的に使用される大規模なバッチサイズ設定において完全には理解されていない。これは、この利点を証明できる唯一の理論的結果は、大規模なバッチアルゴリズムでは不十分な凸非滑らかな目的関数に対するAdagradの論文で得られたものである。本研究では、新しい異方性一般化された滑らか性仮定を提案し、アダグラードの対応する解析を提供することにより、理論と実践の間のこのギャップを解決することを試みる。異方性な滑らかさと雑音条件下では、AdaGradは全ての座標に均一なステップサイズを持つアルゴリズムよりも、次元依存性の点でより高速な収束保証を達成できることが示されている。微調整タスクによるロジスティック回帰と命令の実験は、我々の新しい仮定と理論解析を支持する強力な証拠となる。

関連論文リスト

High Probability Analysis for Non-Convex Stochastic Optimization with Clipping [13.025261730510847]
勾配クリッピングは重み付きニューラルネットワークを扱う技術である。ほとんどの理論上の保証は、予測外解析のみを提供し、性能のみを提供する。我々の分析は、勾配クリッピングによる最適化アルゴリズムの理論的保証について、比較的完全な図を提供している。
論文参考訳（メタデータ） (2023-07-25T17:36:56Z)
A theoretical and empirical study of new adaptive algorithms with additional momentum steps and shifted updates for stochastic non-convex optimization [0.0]
適応最適化アルゴリズムは学習分野の鍵となる柱を表現していると考えられる。本稿では,異なる非滑らかな目的問題に対する適応運動量法を提案する。
論文参考訳（メタデータ） (2021-10-16T09:47:57Z)
Proxy Convexity: A Unified Framework for the Analysis of Neural Networks Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。既存の保証は勾配降下により統一することができることを示す。
論文参考訳（メタデータ） (2021-06-25T17:45:00Z)
SUPER-ADAM: Faster and Universal Framework of Adaptive Gradients [99.13839450032408]
一般的な問題を解決するための適応アルゴリズムのための普遍的な枠組みを設計することが望まれる。特に,本フレームワークは,非収束的設定支援の下で適応的手法を提供する。
論文参考訳（メタデータ） (2021-06-15T15:16:28Z)
Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。我々はこれらの現象を具体的原理で補うと推測する。
論文参考訳（メタデータ） (2021-03-16T16:26:36Z)
Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文参考訳（メタデータ） (2020-12-21T17:29:58Z)
Sample Efficient Reinforcement Learning with REINFORCE [10.884278019498588]
本稿では,古典的政策勾配法と広く用いられているREINFORCE推定手法について考察する。悪い」エピソードの数を制御することによって、常にサブリニアな高い後悔の束縛を確立し、平均的後悔のグローバル収束を、アナルなサブリニアレートでほぼ確実に確立する。これらのアルゴリズムは、よく知られたREINFORCEアルゴリズムに対して、グローバル収束とサンプル効率の最初のセットを提供し、実際にの性能をよりよく理解するのに貢献する。
論文参考訳（メタデータ） (2020-10-22T01:02:55Z)
Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文参考訳（メタデータ） (2020-10-05T14:36:59Z)
Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文参考訳（メタデータ） (2020-06-12T09:39:47Z)
Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文参考訳（メタデータ） (2020-02-13T05:42:27Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。