論文の概要: Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective
- arxiv url: http://arxiv.org/abs/2402.03496v4
- Date: Tue, 4 Jun 2024 17:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:08:02.743134
- Title: Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective
- Title(参考訳): 適応的勾配法で正方根を除去できるか? : 2次視点
- Authors: Wu Lin, Felix Dangel, Runa Eschenhagen, Juhan Bae, Richard E. Turner, Alireza Makhzani,
- Abstract要約: 適応手法の動作が根の除去時にどのように変化するかを検討する。
このような平方根自由適応法は畳み込みアーキテクチャ上のSGDへの一般化ギャップを埋める。
シャンプーのような根ベースの方法とは対照的に、根のない手法は数値的に不安定な行列の根分解や逆変換を必要としない。
- 参考スコア(独自算出の注目度): 26.539517450598044
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adaptive gradient optimizers like Adam(W) are the default training algorithms for many deep learning architectures, such as transformers. Their diagonal preconditioner is based on the gradient outer product which is incorporated into the parameter update via a square root. While these methods are often motivated as approximate second-order methods, the square root represents a fundamental difference. In this work, we investigate how the behavior of adaptive methods changes when we remove the root, i.e. strengthen their second-order motivation. Surprisingly, we find that such square-root-free adaptive methods close the generalization gap to SGD on convolutional architectures, while maintaining their root-based counterpart's performance on transformers. The second-order perspective also has practical benefits for the development of non-diagonal adaptive methods through the concept of preconditioner invariance. In contrast to root-based methods like Shampoo, the root-free counterparts do not require numerically unstable matrix root decompositions and inversions, thus work well in half precision. Our findings provide new insights into the development of adaptive methods and raise important questions regarding the currently overlooked role of adaptivity for their success.
- Abstract(参考訳): Adam(W)のような適応的な勾配最適化アルゴリズムは、トランスフォーマーのような多くのディープラーニングアーキテクチャのデフォルトのトレーニングアルゴリズムである。
彼らの対角プレコンディショナーは、平方根を介してパラメータ更新に組み込まれた勾配外積に基づいている。
これらの方法はしばしば近似二階法として動機付けされるが、平方根は基本的な違いを表す。
本研究では,適応手法の動作が根の除去時にどのように変化するか,すなわち2階のモチベーションを強化するかを検討する。
意外なことに、これらの平方根自由適応法は、変換器の性能を維持しながら、畳み込みアーキテクチャ上のSGDへの一般化ギャップを閉じている。
2階の観点は、プレコンディショナー不変性の概念を通じて非対角的適応法の開発にも実用的な利点がある。
シャンプーのような根ベースの方法とは対照的に、根のない手法は数値的に不安定な行列の根分解や逆変換を必要とせず、したがって半精度でうまく機能する。
本研究は適応手法の開発に関する新たな知見を提供し,現在見過ごされている適応性の役割について重要な疑問を提起する。
関連論文リスト
- Gravity-aligned Rotation Averaging with Circular Regression [53.81374943525774]
我々は,重力方向をグローバルパイプラインの回転平均位相に統合する原理的アプローチを導入する。
4つの大規模データセットで最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-10-16T17:37:43Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - KrADagrad: Kronecker Approximation-Domination Gradient Preconditioned
Stochastic Optimization [69.47358238222586]
第2の順序付けにより、パラメータのステップサイズと方向を変更でき、損失曲率に適応できる。
最近、シャンプーはこれらの要求を減らすためにクローネッカーファクター付きプレコンディショナーを導入した。
不条件行列の逆行列根を取る。
これは64ビットの精度が必要で、ハードウェアの制約が強い。
論文 参考訳(メタデータ) (2023-05-30T21:15:45Z) - Smooth over-parameterized solvers for non-smooth structured optimization [3.756550107432323]
非滑らか性 (non-smoothness) は、空間性、群空間性、低ランクエッジ、鋭いエッジなどの解の構造的制約を符号化する。
我々は、基礎となる非滑らかな最適化問題の非重み付きだが滑らかな過度パラメータ化を運用する。
我々の主な貢献は変数の一部を明示的に最小化することで新しい定式化を定義する変数射影(VarPro)を適用することです。
論文 参考訳(メタデータ) (2022-05-03T09:23:07Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Fast Differentiable Matrix Square Root [65.67315418971688]
微分可能な行列平方根を計算するために、より効率的な2つの変種を提案する。
前方伝播には, Matrix Taylor Polynomial (MTP) を用いる方法がある。
もう1つの方法は Matrix Pad'e Approximants (MPA) を使うことである。
論文 参考訳(メタデータ) (2022-01-21T12:18:06Z) - Reparametrizing gradient descent [0.0]
本稿では,ノルム適応勾配勾配という最適化アルゴリズムを提案する。
我々のアルゴリズムは準ニュートン法と比較することもできるが、定常点ではなく根を求める。
論文 参考訳(メタデータ) (2020-10-09T20:22:29Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。