論文の概要: Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers
- arxiv url: http://arxiv.org/abs/2307.00631v1
- Date: Sun, 2 Jul 2023 18:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 14:56:07.244107
- Title: Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers
- Title(参考訳): 適応型および非適応型モーメントム最適化器に対する2重指数移動平均を用いた双方向探索
- Authors: Yineng Chen, Zuchao Li, Lefei Zhang, Bo Du, Hai Zhao
- Abstract要約: 我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
- 参考スコア(独自算出の注目度): 109.52244418498974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizer is an essential component for the success of deep learning, which
guides the neural network to update the parameters according to the loss on the
training set. SGD and Adam are two classical and effective optimizers on which
researchers have proposed many variants, such as SGDM and RAdam. In this paper,
we innovatively combine the backward-looking and forward-looking aspects of the
optimizer algorithm and propose a novel \textsc{Admeta} (\textbf{A}
\textbf{D}ouble exponential \textbf{M}oving averag\textbf{E} \textbf{T}o
\textbf{A}daptive and non-adaptive momentum) optimizer framework. For
backward-looking part, we propose a DEMA variant scheme, which is motivated by
a metric in the stock market, to replace the common exponential moving average
scheme. While in the forward-looking part, we present a dynamic lookahead
strategy which asymptotically approaches a set value, maintaining its speed at
early stage and high convergence performance at final stage. Based on this
idea, we provide two optimizer implementations, \textsc{AdmetaR} and
\textsc{AdmetaS}, the former based on RAdam and the latter based on SGDM.
Through extensive experiments on diverse tasks, we find that the proposed
\textsc{Admeta} optimizer outperforms our base optimizers and shows advantages
over recently proposed competitive optimizers. We also provide theoretical
proof of these two algorithms, which verifies the convergence of our proposed
\textsc{Admeta}.
- Abstract(参考訳): 最適化はディープラーニングの成功に不可欠な要素であり、トレーニングセットの損失に応じてニューラルネットワークがパラメータを更新するように誘導する。
SGDとAdamは2つの古典的で効果的なオプティマイザであり、研究者はSGDMやRAdamなど多くの変種を提案している。
本稿では,オプティマイザアルゴリズムの後方的および前方的側面を革新的に結合し,新しい最適化フレームワークである \textsc{admeta} (\textbf{a} \textbf{d}ouble exponential \textbf{m}oving averag\textbf{e} \textbf{t}o \textbf{a}daptive and non-adaptive momentum) を提案する。
後ろ向きに見える部分については,株式市場の指標に動機づけられ,一般的な指数移動平均スキームに取って代わるdema変種スキームを提案する。
前方に見える部分では,漸近的にセット値に近づく動的ルックアヘッド戦略を示し,初期速度を維持し,最終段階では高い収束性能を示す。
この考えに基づいて、我々は2つの最適化実装を提供している: \textsc{AdmetaR} と \textsc{AdmetaS} 、前者はRAdam、後者はSGDMである。
多様なタスクに関する広範な実験により,提案した \textsc{Admeta} オプティマイザはベースオプティマイザよりも優れており,最近提案した競合オプティマイザよりも優位性を示す。
また、提案した \textsc{Admeta} の収束性を検証する2つのアルゴリズムの理論的証明も提供する。
関連論文リスト
- An Adaptive Dual-Domain Prediction Strategy based on Second-order Derivatives for Dynamic Multi-Objective Optimization [7.272641346606365]
本稿では,進化的アルゴリズムのパラダイム内での予測戦略を変えるための新しいアプローチを示す。
本稿では,異なる領域における二階微分の概念を適応的に活用する適応予測手法を提案する。
DMOPsベンチマーク問題を用いて,提案アルゴリズムの性能を文献からの4つの最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2024-10-08T08:13:49Z) - Adam with model exponential moving average is effective for nonconvex optimization [45.242009309234305]
本稿では,Adamのような適応最適化アルゴリズムと(II)指数移動平均(EMA)モデルという,大規模かつ複雑なモデルのトレーニングのための2つの現代的な最適化手法に関する理論的解析を行う。
論文 参考訳(メタデータ) (2024-05-28T14:08:04Z) - SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文 参考訳(メタデータ) (2024-03-05T06:10:21Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Moment Centralization based Gradient Descent Optimizers for
Convolutional Neural Networks [12.90962626557934]
コナールニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションに非常に魅力的な性能を示している。
本稿では,CNNのためのモーメント集中型SGDデータセットを提案する。
提案されたモーメント集中は本質的には汎用的であり、既存の適応運動量ベースのいずれかと統合することができる。
論文 参考訳(メタデータ) (2022-07-19T04:38:01Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。