Fugu-MT 論文翻訳(概要): An Isometric Stochastic Optimizer

論文の概要: An Isometric Stochastic Optimizer

arxiv url: http://arxiv.org/abs/2307.12979v1
Date: Mon, 24 Jul 2023 17:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 13:12:44.436477
Title: An Isometric Stochastic Optimizer
Title（参考訳）: 等尺確率最適化器
Authors: Jacob Jackson
Abstract要約: ディープラーニングアプリケーションでは、Adamが標準的な選択肢です。それぞれのパラメータのステップサイズを、他のパラメータのノルムとは無関係にします。パラメータの更新のノルムを、その入力と出力への線形変換の適用に不変にする新しいアプローチであるIsoを導出します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Adam optimizer is the standard choice in deep learning applications. I propose a simple explanation of Adam's success: it makes each parameter's step size independent of the norms of the other parameters. Based on this principle I derive Iso, a new optimizer which makes the norm of a parameter's update invariant to the application of any linear transformation to its inputs and outputs. I develop a variant of Iso called IsoAdam that allows optimal hyperparameters to be transferred from Adam, and demonstrate that IsoAdam obtains a speedup over Adam when training a small Transformer.
Abstract（参考訳）: ディープラーニングアプリケーションでは、Adamオプティマイザが標準選択である。それぞれのパラメータのステップサイズを、他のパラメータのノルムとは無関係にします。この原理に基づいて、i は、パラメータの更新のノルムを任意の線形変換の入出力への応用に不変にする新しいオプティマイザである iso を導出する。私は、IsoAdamと呼ばれるIsoの変種を開発し、Adamから最適なハイパーパラメータを転送できるようにし、IsoAdamが小さなトランスフォーマーを訓練する際にAdamよりもスピードアップが得られることを示した。

関連論文リスト

AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training [22.58304858379219]
我々は,大規模言語モデル(LLM)の事前学習とポストトレーニングのための,Adamの簡易かつ効果的な代替手段であるAdamSを紹介した。新たな分母、すなわち運動量と現在の勾配の重み付き和の根を利用することにより、AdamSは第二モーメント推定の必要性を排除している。 AdamSは効率が良く、SGDのメモリと計算フットプリントと運動量とを一致させ、優れた最適化性能を提供する。
論文参考訳（メタデータ） (2025-05-22T08:16:48Z)
Towards Simple and Provable Parameter-Free Adaptive Gradient Methods [56.060918447252625]
本稿では,AdaGrad++とAdam++について述べる。我々は,AdaGrad++がAdaGradに比較して,事前定義された学習率の仮定を伴わずに,凸最適化においてAdaGradと同等の収束率を達成したことを証明した。
論文参考訳（メタデータ） (2024-12-27T04:22:02Z)
CAdam: Confidence-Based Optimization for Online Learning [35.84013976735154]
本稿では,更新を決定する前に,各パラメータ次元の運動量と勾配との整合性を評価する信頼度に基づく最適化手法であるCAdamを紹介する。合成と実世界の両方のデータセットによる実験は、CAdamが他のよく知られたシステムを上回っていることを示している。ライブレコメンデーションシステムにおける大規模A/Bテストでは、CAdamはAdamと比較してモデル性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-29T12:00:27Z)
Continuous-Time Analysis of Adaptive Optimization and Normalization [5.954511401622424]
適応最適化アルゴリズム、特にAdamとその変種AdamWは、現代のディープラーニングの基本コンポーネントである。この研究は、AdamとAdamWの連続的な時間的定式化を示し、トレーニングダイナミクスの抽出可能な解析を容易にする。
論文参考訳（メタデータ） (2024-11-08T18:07:55Z)
LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics [37.21593513802284]
大規模なモデルをトレーニングするためのメモリ効率のよい勾配であるLDAdamを紹介する。 LDAdamは,言語モデルの精密かつ効率的な微調整と事前学習を可能にする。
論文参考訳（メタデータ） (2024-10-21T15:31:06Z)
Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文参考訳（メタデータ） (2024-07-08T12:32:51Z)
Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文参考訳（メタデータ） (2022-08-21T14:57:47Z)
A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文参考訳（メタデータ） (2021-12-07T02:47:58Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。この発見に基づいて,Adam の新たな変種 EAdam を提案する。当社の手法はAdamと比較して大幅に改善できる。
論文参考訳（メタデータ） (2020-11-04T06:39:44Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)
A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。 Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文参考訳（メタデータ） (2020-03-05T01:56:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。