論文の概要: Remove that Square Root: A New Efficient Scale-Invariant Version of AdaGrad
- arxiv url: http://arxiv.org/abs/2403.02648v2
- Date: Wed, 5 Jun 2024 15:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:51:07.589118
- Title: Remove that Square Root: A New Efficient Scale-Invariant Version of AdaGrad
- Title(参考訳): Square Rootを廃止する - AdaGradの新しい効率的なスケール不変バージョン
- Authors: Sayantan Choudhury, Nazarii Tupitsa, Nicolas Loizou, Samuel Horvath, Martin Takac, Eduard Gorbunov,
- Abstract要約: 本稿では,複雑な機械学習タスクに一貫した適応アルゴリズムKATEを提案する。
我々はKATEと他の最先端適応アルゴリズムAdam AdaGradを比較し、異なる問題を持つ数値実験を行った。
- 参考スコア(独自算出の注目度): 16.249992982986956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive methods are extremely popular in machine learning as they make learning rate tuning less expensive. This paper introduces a novel optimization algorithm named KATE, which presents a scale-invariant adaptation of the well-known AdaGrad algorithm. We prove the scale-invariance of KATE for the case of Generalized Linear Models. Moreover, for general smooth non-convex problems, we establish a convergence rate of $O \left(\frac{\log T}{\sqrt{T}} \right)$ for KATE, matching the best-known ones for AdaGrad and Adam. We also compare KATE to other state-of-the-art adaptive algorithms Adam and AdaGrad in numerical experiments with different problems, including complex machine learning tasks like image classification and text classification on real data. The results indicate that KATE consistently outperforms AdaGrad and matches/surpasses the performance of Adam in all considered scenarios.
- Abstract(参考訳): 適応的手法は、学習率のチューニングを安価にするため、機械学習で非常に人気がある。
本稿では、よく知られたAdaGradアルゴリズムのスケール不変な適応を示す、KATEという新しい最適化アルゴリズムを提案する。
一般化線形モデルの場合のKATEのスケール不変性を証明する。
さらに、一般の滑らかな非凸問題に対して、KATE に対して$O \left(\frac{\log T}{\sqrt{T}} \right)$の収束率を確立し、AdaGrad と Adam の最もよく知られた問題と一致する。
我々はまた、KATEと他の最先端適応アルゴリズムAdamとAdaGradを比較して、さまざまな問題に関する数値実験を行った。
結果は、KATEがAdaGradを一貫して上回り、すべての考慮されたシナリオでAdamのパフォーマンスにマッチ/オーバーパスしていることを示している。
関連論文リスト
- ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Linear-Time Gromov Wasserstein Distances using Low Rank Couplings and
Costs [45.87981728307819]
異種空間に居住する関連するデータセットを比較して整列する能力は、機械学習においてますます重要な役割を担っている。
グロモフ・ワッサーシュタイン (Gromov-Wasserstein, GW) 形式主義はこの問題に対処するのに役立つ。
論文 参考訳(メタデータ) (2021-06-02T12:50:56Z) - Generalized AdaGrad (G-AdaGrad) and Adam: A State-Space Perspective [0.0]
非機械学習問題の解法として,高速で一般化されたAdaGrad(G-AdaGrad)を提案する。
具体的には、G-AdaGradとAdamという収束加速アルゴリズムを解析するために状態空間の視点を採用する。
論文 参考訳(メタデータ) (2021-05-31T20:30:25Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Convergence of Online Adaptive and Recurrent Optimization Algorithms [0.0]
我々は、機械学習で使用されるいくつかの顕著な降下アルゴリズムの局所収束を証明した。
我々は確率的視点ではなく「エルゴディック」を採用し、確率分布の代わりに経験的な時間平均で作業する。
論文 参考訳(メタデータ) (2020-05-12T09:48:52Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z) - Learning Sparse Classifiers: Continuous and Mixed Integer Optimization
Perspectives [10.291482850329892]
混合整数計画法(MIP)は、(最適に) $ell_0$-正規化回帰問題を解くために用いられる。
数分で5万ドルの機能を処理できる正確なアルゴリズムと、$papprox6$でインスタンスに対処できる近似アルゴリズムの2つのクラスを提案する。
さらに,$ell$-regularizedsに対する新しい推定誤差境界を提案する。
論文 参考訳(メタデータ) (2020-01-17T18:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。