論文の概要: Generalized AdaGrad (G-AdaGrad) and Adam: A State-Space Perspective
- arxiv url: http://arxiv.org/abs/2106.00092v1
- Date: Mon, 31 May 2021 20:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:31:27.045753
- Title: Generalized AdaGrad (G-AdaGrad) and Adam: A State-Space Perspective
- Title(参考訳): 一般化されたAdaGrad(G-AdaGrad)とAdam:状態空間の展望
- Authors: Kushal Chakrabarti, Nikhil Chopra
- Abstract要約: 非機械学習問題の解法として,高速で一般化されたAdaGrad(G-AdaGrad)を提案する。
具体的には、G-AdaGradとAdamという収束加速アルゴリズムを解析するために状態空間の視点を採用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accelerated gradient-based methods are being extensively used for solving
non-convex machine learning problems, especially when the data points are
abundant or the available data is distributed across several agents. Two of the
prominent accelerated gradient algorithms are AdaGrad and Adam. AdaGrad is the
simplest accelerated gradient method, which is particularly effective for
sparse data. Adam has been shown to perform favorably in deep learning problems
compared to other methods. In this paper, we propose a new fast optimizer,
Generalized AdaGrad (G-AdaGrad), for accelerating the solution of potentially
non-convex machine learning problems. Specifically, we adopt a state-space
perspective for analyzing the convergence of gradient acceleration algorithms,
namely G-AdaGrad and Adam, in machine learning. Our proposed state-space models
are governed by ordinary differential equations. We present simple convergence
proofs of these two algorithms in the deterministic settings with minimal
assumptions. Our analysis also provides intuition behind improving upon
AdaGrad's convergence rate. We provide empirical results on MNIST dataset to
reinforce our claims on the convergence and performance of G-AdaGrad and Adam.
- Abstract(参考訳): 加速度勾配に基づく手法は、特にデータポイントが豊富であるか、利用可能なデータが複数のエージェントに分散している場合、非凸機械学習の問題を解決するために広く使われている。
顕著な加速勾配アルゴリズムの2つはAdaGradとAdamである。
AdaGradは最も単純な加速勾配法であり、特にスパースデータに有効である。
adamは、他の方法と比較して、ディープラーニングの問題で有利に機能することが示されている。
本稿では,非凸機械学習問題の解を高速化する新しい高速最適化器であるgeneralized adagrad (g-adagrad)を提案する。
具体的には,G-AdaGradやAdamといった勾配加速度アルゴリズムの収束を解析するための状態空間的視点を採用する。
提案する状態空間モデルは常微分方程式によって制御される。
この2つのアルゴリズムの単純な収束証明を最小の仮定で決定論的設定で提示する。
我々の分析は、AdaGradの収束率を改善するための直感も提供する。
我々は、G-AdaGradとAdamの収束と性能に関する主張を強化するために、MNISTデータセットの実証結果を提供する。
関連論文リスト
- Towards Simple and Provable Parameter-Free Adaptive Gradient Methods [56.060918447252625]
本稿では,AdaGrad++とAdam++について述べる。
我々は,AdaGrad++がAdaGradに比較して,事前定義された学習率の仮定を伴わずに,凸最適化においてAdaGradと同等の収束率を達成したことを証明した。
論文 参考訳(メタデータ) (2024-12-27T04:22:02Z) - Remove that Square Root: A New Efficient Scale-Invariant Version of AdaGrad [16.249992982986956]
本稿では,複雑な機械学習タスクに一貫した適応アルゴリズムKATEを提案する。
我々はKATEと他の最先端適応アルゴリズムAdam AdaGradを比較し、異なる問題を持つ数値実験を行った。
論文 参考訳(メタデータ) (2024-03-05T04:35:59Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - AdaX: Adaptive Gradient Descent with Exponential Long Term Memory [34.6432726391469]
我々は、単純な非ビジョン機械学習タスクにおいて、その性能を分析することでAdamの問題を解析する。
この問題を解決するために,AdaX という新しい適応勾配を提案する。
AdaXは様々な自然言語処理タスクにおいてAdamより優れています。
論文 参考訳(メタデータ) (2020-04-21T03:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。