論文の概要: An Isometric Stochastic Optimizer
- arxiv url: http://arxiv.org/abs/2307.12979v1
- Date: Mon, 24 Jul 2023 17:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:12:44.436477
- Title: An Isometric Stochastic Optimizer
- Title(参考訳): 等尺確率最適化器
- Authors: Jacob Jackson
- Abstract要約: ディープラーニングアプリケーションでは、Adamが標準的な選択肢です。
それぞれのパラメータのステップサイズを、他のパラメータのノルムとは無関係にします。
パラメータの更新のノルムを、その入力と出力への線形変換の適用に不変にする新しいアプローチであるIsoを導出します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Adam optimizer is the standard choice in deep learning applications. I
propose a simple explanation of Adam's success: it makes each parameter's step
size independent of the norms of the other parameters. Based on this principle
I derive Iso, a new optimizer which makes the norm of a parameter's update
invariant to the application of any linear transformation to its inputs and
outputs. I develop a variant of Iso called IsoAdam that allows optimal
hyperparameters to be transferred from Adam, and demonstrate that IsoAdam
obtains a speedup over Adam when training a small Transformer.
- Abstract(参考訳): ディープラーニングアプリケーションでは、Adamオプティマイザが標準選択である。
それぞれのパラメータのステップサイズを、他のパラメータのノルムとは無関係にします。
この原理に基づいて、i は、パラメータの更新のノルムを任意の線形変換の入出力への応用に不変にする新しいオプティマイザである iso を導出する。
私は、IsoAdamと呼ばれるIsoの変種を開発し、Adamから最適なハイパーパラメータを転送できるようにし、IsoAdamが小さなトランスフォーマーを訓練する際にAdamよりもスピードアップが得られることを示した。
関連論文リスト
- Towards Stability of Parameter-free Optimization [28.012355508745543]
本稿では,手動チューニングなしで多様な最適化問題に自動的に適応する新しいパラメータフリーAdamGを提案する。
AdamGの根底にある技術は、AdaGrad-Normアルゴリズムの黄金のステップサイズであり、AdaGrad-Normがチューニング自由収束を維持するのに役立つと期待されている。
実験の結果、AdamGは他のパラメータフリーと比較すると、AdamGは優れた性能を達成しており、これは手動でチューニングされた学習率を用いてAdamと一貫して同等である。
論文 参考訳(メタデータ) (2024-05-07T14:58:12Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - CADA: Communication-Adaptive Distributed Adam [31.02472517086767]
勾配降下(SGD)は、大規模機械学習の主要な作業場としてステージに立った。
本稿では,Adam方式の通信適応型手法とみなす分散機械学習の適応勾配降下法を提案する。
論文 参考訳(メタデータ) (2020-12-31T06:52:18Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
論文 参考訳(メタデータ) (2020-11-04T06:39:44Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。