論文の概要: Improving Gradient-Trend Identification: Fast-Adaptive Moment Estimation
with Finance-Inspired Triple Exponential Moving Average
- arxiv url: http://arxiv.org/abs/2306.01423v2
- Date: Thu, 21 Dec 2023 08:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:56:34.133404
- Title: Improving Gradient-Trend Identification: Fast-Adaptive Moment Estimation
with Finance-Inspired Triple Exponential Moving Average
- Title(参考訳): グラディエント・トレンド同定の改善:ファイナンスにインスパイアされたトリプル指数移動平均を用いた高速適応モーメント推定
- Authors: Roi Peleg, Teddy Lazebnik, Assaf Hoogi
- Abstract要約: ファストアダプティブモーメント推定(FAME)という小説を紹介する。
金融分野で使われる3倍指数移動平均(TEMA)にインスパイアされたFAMEは、勾配傾向の特定精度を向上させる。
最適化プロセスにTEMAを導入することにより、FAMEはより正確でラグの少ないトレンドを識別できる。
- 参考スコア(独自算出の注目度): 2.480023305418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance improvement of deep networks significantly depends on their
optimizers. With existing optimizers, precise and efficient recognition of the
gradients trend remains a challenge. Existing optimizers predominantly adopt
techniques based on the first-order exponential moving average (EMA), which
results in noticeable delays that impede the real-time tracking of gradients
trend and consequently yield sub-optimal performance. To overcome this
limitation, we introduce a novel optimizer called fast-adaptive moment
estimation (FAME). Inspired by the triple exponential moving average (TEMA)
used in the financial domain, FAME leverages the potency of higher-order TEMA
to improve the precision of identifying gradient trends. TEMA plays a central
role in the learning process as it actively influences optimization dynamics;
this role differs from its conventional passive role as a technical indicator
in financial contexts. Because of the introduction of TEMA into the
optimization process, FAME can identify gradient trends with higher accuracy
and fewer lag issues, thereby offering smoother and more consistent responses
to gradient fluctuations compared to conventional first-order EMA. To study the
effectiveness of our novel FAME optimizer, we conducted comprehensive
experiments encompassing six diverse computer-vision benchmarks and tasks,
spanning detection, classification, and semantic comprehension. We integrated
FAME into 15 learning architectures and compared its performance with those of
six popular optimizers. Results clearly showed that FAME is more robust and
accurate and provides superior performance stability by minimizing noise (i.e.,
trend fluctuations). Notably, FAME achieves higher accuracy levels in
remarkably fewer training epochs than its counterparts, clearly indicating its
significance for optimizing deep networks in computer-vision tasks.
- Abstract(参考訳): ディープネットワークの性能改善は最適化に大きく依存する。
既存のオプティマイザでは、グラデーショントレンドの正確かつ効率的な認識は依然として課題である。
既存のオプティマイザは主に1次指数移動平均(EMA)に基づく手法を採用しており、これは勾配トレンドのリアルタイム追跡を妨げる顕著な遅延をもたらし、結果として準最適性能が得られる。
この制限を克服するために、高速適応モーメント推定(FAME)と呼ばれる新しい最適化手法を導入する。
金融分野で使われる3倍指数移動平均(TEMA)にインスパイアされたFAMEは、高次TEMAの有効性を活用して勾配傾向の特定精度を向上させる。
TEMAは、最適化力学に積極的に影響を与えるため、学習プロセスにおいて中心的な役割を果たす。
最適化プロセスにTEMAを導入することにより、FAMEはより高精度でラグの少ない勾配傾向を識別できるため、従来の1次EMAよりもスムーズで一貫性のある勾配変動に対応することができる。
提案手法の有効性を検討するため,6種類のコンピュータビジョンベンチマークとタスク,スパンニング検出,分類,意味理解を包含する総合実験を行った。
我々はFAMEを15の学習アーキテクチャに統合し、その性能を6つの人気のあるオプティマイザと比較した。
その結果、FAMEはより堅牢で正確であり、ノイズ(トレンド変動)を最小限に抑えることにより、優れた性能の安定性を提供することが示された。
特に、FAMEは、コンピュータビジョンタスクにおいてディープネットワークを最適化することの重要性を明確に示し、トレーニングのエポックを著しく少なくする。
関連論文リスト
- Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - Online Adaptive Disparity Estimation for Dynamic Scenes in Structured
Light Systems [17.53719804060679]
このパフォーマンスギャップを埋める解決策として、自己監督型オンライン適応が提案されている。
本稿では,長い逐次入力に基づく教師なし損失関数を提案する。
提案手法は,オンライン適応速度を大幅に向上し,目に見えないデータに対して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-13T08:00:33Z) - We Don't Need No Adam, All We Need Is EVE: On The Variance of Dual
Learning Rate And Beyond [0.0]
本稿では、勾配の異なる成分に異なる学習率を革新的に適用する新しい手法である強化速度推定法(EVE)を提案する。
学習率を2倍にすることで、EVEはよりニュアンスな制御とより高速な収束を可能にし、従来の単一学習率アプローチに関連する課題に対処する。
論文 参考訳(メタデータ) (2023-08-21T14:08:42Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Improving Multi-fidelity Optimization with a Recurring Learning Rate for
Hyperparameter Tuning [7.591442522626255]
再帰学習率(MORL)を考慮した多相最適化を提案する。
MORLはCNNの最適化プロセスを多要素最適化に組み込んでいる。
スロースタートの問題を緩和し、より正確な低忠実度近似を実現する。
論文 参考訳(メタデータ) (2022-09-26T08:16:31Z) - Accelerating Federated Learning with a Global Biased Optimiser [16.69005478209394]
Federated Learning(FL)は、クライアントデバイスを離れるトレーニングデータなしでモデルを協調訓練する機械学習の分野における最近の開発である。
本稿では,FedGBO(Federated Global Biased Optimiser)アルゴリズムを用いて,適応最適化手法をFLに適用する手法を提案する。
FedGBOは、FLの局所的なトレーニングフェーズにおいて、グローバルバイアス付きオプティマイザ値のセットを適用することでFLを加速し、非IIDデータからのクライアントドリフトを減少させる。
論文 参考訳(メタデータ) (2021-08-20T12:08:44Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。