Fugu-MT 論文翻訳(概要): Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers

論文の概要: Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers

arxiv url: http://arxiv.org/abs/2307.00631v1
Date: Sun, 2 Jul 2023 18:16:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-05 14:56:07.244107
Title: Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers
Title（参考訳）: 適応型および非適応型モーメントム最適化器に対する2重指数移動平均を用いた双方向探索
Authors: Yineng Chen, Zuchao Li, Lefei Zhang, Bo Du, Hai Zhao
Abstract要約: 我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
参考スコア（独自算出の注目度）: 109.52244418498974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optimizer is an essential component for the success of deep learning, which guides the neural network to update the parameters according to the loss on the training set. SGD and Adam are two classical and effective optimizers on which researchers have proposed many variants, such as SGDM and RAdam. In this paper, we innovatively combine the backward-looking and forward-looking aspects of the optimizer algorithm and propose a novel \textsc{Admeta} (\textbf{A} \textbf{D}ouble exponential \textbf{M}oving averag\textbf{E} \textbf{T}o \textbf{A}daptive and non-adaptive momentum) optimizer framework. For backward-looking part, we propose a DEMA variant scheme, which is motivated by a metric in the stock market, to replace the common exponential moving average scheme. While in the forward-looking part, we present a dynamic lookahead strategy which asymptotically approaches a set value, maintaining its speed at early stage and high convergence performance at final stage. Based on this idea, we provide two optimizer implementations, \textsc{AdmetaR} and \textsc{AdmetaS}, the former based on RAdam and the latter based on SGDM. Through extensive experiments on diverse tasks, we find that the proposed \textsc{Admeta} optimizer outperforms our base optimizers and shows advantages over recently proposed competitive optimizers. We also provide theoretical proof of these two algorithms, which verifies the convergence of our proposed \textsc{Admeta}.
Abstract（参考訳）: 最適化はディープラーニングの成功に不可欠な要素であり、トレーニングセットの損失に応じてニューラルネットワークがパラメータを更新するように誘導する。 SGDとAdamは2つの古典的で効果的なオプティマイザであり、研究者はSGDMやRAdamなど多くの変種を提案している。本稿では,オプティマイザアルゴリズムの後方的および前方的側面を革新的に結合し,新しい最適化フレームワークである \textsc{admeta} (\textbf{a} \textbf{d}ouble exponential \textbf{m}oving averag\textbf{e} \textbf{t}o \textbf{a}daptive and non-adaptive momentum) を提案する。後ろ向きに見える部分については,株式市場の指標に動機づけられ,一般的な指数移動平均スキームに取って代わるdema変種スキームを提案する。前方に見える部分では,漸近的にセット値に近づく動的ルックアヘッド戦略を示し,初期速度を維持し,最終段階では高い収束性能を示す。この考えに基づいて、我々は2つの最適化実装を提供している: \textsc{AdmetaR} と \textsc{AdmetaS} 、前者はRAdam、後者はSGDMである。多様なタスクに関する広範な実験により,提案した \textsc{Admeta} オプティマイザはベースオプティマイザよりも優れており,最近提案した競合オプティマイザよりも優位性を示す。また、提案した \textsc{Admeta} の収束性を検証する2つのアルゴリズムの理論的証明も提供する。

関連論文リスト

An accelerate Prediction Strategy for Dynamic Multi-Objective Optimization [7.272641346606365]
本稿では,進化的アルゴリズムフレームワークにおける予測戦略の高速化のための新しいアプローチを提案する。本稿では,アルゴリズムの探索動作を予測・調整するために,二階微分を組み込んだ適応予測戦略を提案する。標準DMOPのベンチマーク問題を用いて,提案手法の性能を4つの最先端アルゴリズムと比較した。
論文参考訳（メタデータ） (2024-10-08T08:13:49Z)
Adam with model exponential moving average is effective for nonconvex optimization [45.242009309234305]
本稿では,Adamのような適応最適化アルゴリズムと(II)指数移動平均(EMA)モデルという,大規模かつ複雑なモデルのトレーニングのための2つの現代的な最適化手法に関する理論的解析を行う。
論文参考訳（メタデータ） (2024-05-28T14:08:04Z)
SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文参考訳（メタデータ） (2024-03-05T06:10:21Z)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。 AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文参考訳（メタデータ） (2024-01-17T00:16:46Z)
Moment Centralization based Gradient Descent Optimizers for Convolutional Neural Networks [12.90962626557934]
コナールニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションに非常に魅力的な性能を示している。本稿では,CNNのためのモーメント集中型SGDデータセットを提案する。提案されたモーメント集中は本質的には汎用的であり、既存の適応運動量ベースのいずれかと統合することができる。
論文参考訳（メタデータ） (2022-07-19T04:38:01Z)
RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文参考訳（メタデータ） (2021-10-27T05:37:12Z)
Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文参考訳（メタデータ） (2021-04-30T08:50:24Z)
Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文参考訳（メタデータ） (2021-02-07T20:53:23Z)
Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。 Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文参考訳（メタデータ） (2020-10-15T18:09:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。