論文の概要: Leveraging the Triple Exponential Moving Average for Fast-Adaptive
Moment Estimation
- arxiv url: http://arxiv.org/abs/2306.01423v1
- Date: Fri, 2 Jun 2023 10:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:45:57.053035
- Title: Leveraging the Triple Exponential Moving Average for Fast-Adaptive
Moment Estimation
- Title(参考訳): 高速適応モーメント推定のための三成分移動平均の活用
- Authors: Roi Peleg, Roi Weiss, Assaf Hoogi
- Abstract要約: 我々はFAME(Fast-Adaptive Moment Estimation)と呼ばれる新しいディープを提案する。
トリプル指数移動平均(TEMA)を用いたFAMEによる勾配モーメントの推定
提案するFAMEは,CIFAR-10,CIFAR-100,PA-VOC,MS-COCO,Cityscapesなど,様々なベンチマークを通じて広範囲に検証されている。
- 参考スコア(独自算出の注目度): 2.4665182280122577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network optimization is a crucial step in the field of deep learning, as it
directly affects the performance of models in various domains such as computer
vision. Despite the numerous optimizers that have been developed over the
years, the current methods are still limited in their ability to accurately and
quickly identify gradient trends, which can lead to sub-optimal network
performance. In this paper, we propose a novel deep optimizer called
Fast-Adaptive Moment Estimation (FAME), which for the first time estimates
gradient moments using a Triple Exponential Moving Average (TEMA).
Incorporating TEMA into the optimization process provides richer and more
accurate information on data changes and trends, as compared to the standard
Exponential Moving Average used in essentially all current leading adaptive
optimization methods. Our proposed FAME optimizer has been extensively
validated through a wide range of benchmarks, including CIFAR-10, CIFAR-100,
PASCAL-VOC, MS-COCO, and Cityscapes, using 14 different learning architectures,
six optimizers, and various vision tasks, including detection, classification
and semantic understanding. The results demonstrate that our FAME optimizer
outperforms other leading optimizers in terms of both robustness and accuracy.
- Abstract(参考訳): ネットワーク最適化は深層学習において重要なステップであり、コンピュータビジョンなどの様々な領域におけるモデルの性能に直接影響を与える。
長年にわたって開発されてきた多くのオプティマイザにもかかわらず、現在の手法は勾配の傾向を正確かつ迅速に識別する能力に制限されているため、ネットワークの準最適性能につながる可能性がある。
本稿では,三重指数移動平均 (tema) を用いて勾配モーメントを初めて推定する,fast-adaptive moment estimation (fame) と呼ばれる新しいディープオプティマイザを提案する。
TEMAを最適化プロセスに組み込むことで、現在のすべての適応最適化手法で使用される標準の指数移動平均よりも、データの変化やトレンドに関するよりリッチで正確な情報が得られる。
CIFAR-10, CIFAR-100, PASCAL-VOC, MS-COCO, Cityscapes など,14の異なる学習アーキテクチャ, 6つのオプティマイザ, 検出, 分類, 意味理解を含む様々な視覚タスクを用いて, 提案したFAMEオプティマイザを広範囲に検証した。
その結果,我々の名声オプティマイザは他の主要なオプティマイザよりもロバスト性と正確性の両方において優れていることがわかった。
関連論文リスト
- Variational Stochastic Gradient Descent for Deep Neural Networks [16.96187187108041]
現在の最先端は、Adamのような適応的勾配に基づく最適化手法である。
ここでは,2つのアプローチを組み合わせることを提案し,その結果,VSGD(Variational Gradient Descent)を導出する。
我々は、VSGD法がAdamのような他の適応勾配ベースとどのように関係しているかを示す。
論文 参考訳(メタデータ) (2024-04-09T18:02:01Z) - Online Adaptive Disparity Estimation for Dynamic Scenes in Structured
Light Systems [17.53719804060679]
このパフォーマンスギャップを埋める解決策として、自己監督型オンライン適応が提案されている。
本稿では,長い逐次入力に基づく教師なし損失関数を提案する。
提案手法は,オンライン適応速度を大幅に向上し,目に見えないデータに対して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-13T08:00:33Z) - We Don't Need No Adam, All We Need Is EVE: On The Variance of Dual
Learning Rate And Beyond [0.0]
本稿では、勾配の異なる成分に異なる学習率を革新的に適用する新しい手法である強化速度推定法(EVE)を提案する。
学習率を2倍にすることで、EVEはよりニュアンスな制御とより高速な収束を可能にし、従来の単一学習率アプローチに関連する課題に対処する。
論文 参考訳(メタデータ) (2023-08-21T14:08:42Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Improving Multi-fidelity Optimization with a Recurring Learning Rate for
Hyperparameter Tuning [7.591442522626255]
再帰学習率(MORL)を考慮した多相最適化を提案する。
MORLはCNNの最適化プロセスを多要素最適化に組み込んでいる。
スロースタートの問題を緩和し、より正確な低忠実度近似を実現する。
論文 参考訳(メタデータ) (2022-09-26T08:16:31Z) - Accelerating Federated Learning with a Global Biased Optimiser [16.69005478209394]
Federated Learning(FL)は、クライアントデバイスを離れるトレーニングデータなしでモデルを協調訓練する機械学習の分野における最近の開発である。
本稿では,FedGBO(Federated Global Biased Optimiser)アルゴリズムを用いて,適応最適化手法をFLに適用する手法を提案する。
FedGBOは、FLの局所的なトレーニングフェーズにおいて、グローバルバイアス付きオプティマイザ値のセットを適用することでFLを加速し、非IIDデータからのクライアントドリフトを減少させる。
論文 参考訳(メタデータ) (2021-08-20T12:08:44Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。