論文の概要: An Isometric Stochastic Optimizer
- arxiv url: http://arxiv.org/abs/2307.12979v1
- Date: Mon, 24 Jul 2023 17:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:12:44.436477
- Title: An Isometric Stochastic Optimizer
- Title(参考訳): 等尺確率最適化器
- Authors: Jacob Jackson
- Abstract要約: ディープラーニングアプリケーションでは、Adamが標準的な選択肢です。
それぞれのパラメータのステップサイズを、他のパラメータのノルムとは無関係にします。
パラメータの更新のノルムを、その入力と出力への線形変換の適用に不変にする新しいアプローチであるIsoを導出します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Adam optimizer is the standard choice in deep learning applications. I
propose a simple explanation of Adam's success: it makes each parameter's step
size independent of the norms of the other parameters. Based on this principle
I derive Iso, a new optimizer which makes the norm of a parameter's update
invariant to the application of any linear transformation to its inputs and
outputs. I develop a variant of Iso called IsoAdam that allows optimal
hyperparameters to be transferred from Adam, and demonstrate that IsoAdam
obtains a speedup over Adam when training a small Transformer.
- Abstract(参考訳): ディープラーニングアプリケーションでは、Adamオプティマイザが標準選択である。
それぞれのパラメータのステップサイズを、他のパラメータのノルムとは無関係にします。
この原理に基づいて、i は、パラメータの更新のノルムを任意の線形変換の入出力への応用に不変にする新しいオプティマイザである iso を導出する。
私は、IsoAdamと呼ばれるIsoの変種を開発し、Adamから最適なハイパーパラメータを転送できるようにし、IsoAdamが小さなトランスフォーマーを訓練する際にAdamよりもスピードアップが得られることを示した。
関連論文リスト
- Continuous-Time Analysis of Adaptive Optimization and Normalization [5.954511401622424]
適応最適化アルゴリズム、特にAdamとその変種AdamWは、現代のディープラーニングの基本コンポーネントである。
この研究は、AdamとAdamWの連続的な時間的定式化を示し、トレーニングダイナミクスの抽出可能な解析を容易にする。
論文 参考訳(メタデータ) (2024-11-08T18:07:55Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
論文 参考訳(メタデータ) (2020-11-04T06:39:44Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。