論文の概要: Switch EMA: A Free Lunch for Better Flatness and Sharpness
- arxiv url: http://arxiv.org/abs/2402.09240v1
- Date: Wed, 14 Feb 2024 15:28:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:55:23.722016
- Title: Switch EMA: A Free Lunch for Better Flatness and Sharpness
- Title(参考訳): Switch EMA: フラットネスとシャープネス向上のためのフリーランチ
- Authors: Siyuan Li, Zicheng Liu, Juanxi Tian, Ge Wang, Zedong Wang, Weiyang
Jin, Di Wu, Cheng Tan, Tao Lin, Yang Liu, Baigui Sun, and Stan Z. Li
- Abstract要約: この研究は、一行の修正、すなわち、スイッチ(SEMA)と呼ばれる各エポック後のパラメータを元のモデルに切り替えることによって、EMAの完全なポテンシャルを明らかにする。
理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。
- 参考スコア(独自算出の注目度): 58.55452862747021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exponential Moving Average (EMA) is a widely used weight averaging (WA)
regularization to learn flat optima for better generalizations without extra
cost in deep neural network (DNN) optimization. Despite achieving better
flatness, existing WA methods might fall into worse final performances or
require extra test-time computations. This work unveils the full potential of
EMA with a single line of modification, i.e., switching the EMA parameters to
the original model after each epoch, dubbed as Switch EMA (SEMA). From both
theoretical and empirical aspects, we demonstrate that SEMA can help DNNs to
reach generalization optima that better trade-off between flatness and
sharpness. To verify the effectiveness of SEMA, we conduct comparison
experiments with discriminative, generative, and regression tasks on vision and
language datasets, including image classification, self-supervised learning,
object detection and segmentation, image generation, video prediction,
attribute regression, and language modeling. Comprehensive results with popular
optimizers and networks show that SEMA is a free lunch for DNN training by
improving performances and boosting convergence speeds.
- Abstract(参考訳): Exponential moving Average (EMA)は、ディープニューラルネットワーク(DNN)最適化に余分なコストを要さずに、フラットな最適化を学習するために広く使われているウェイト平均化(WA)正規化である。
平坦性が向上したにもかかわらず、既存のWAメソッドは最終的なパフォーマンスが悪くなり、追加のテスト時間計算が必要になる。
この研究は、EMAの完全なポテンシャルを1行の修正で明らかにし、すなわち、スイッチEMA (SEMA) と呼ばれる各エポック後のEMAパラメータを元のモデルに切り替える。
理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。
SEMAの有効性を検証するため,画像分類,自己教師付き学習,物体検出とセグメンテーション,画像生成,映像予測,属性回帰,言語モデリングなど,視覚・言語データセットに対する識別的・生成的・回帰的タスクの比較実験を行った。
一般的なオプティマイザとネットワークによる総合的な結果から,SEMAはDNNトレーニングの無料ランチであり,性能の向上と収束速度の向上が期待できる。
関連論文リスト
- Exponential Moving Average of Weights in Deep Learning: Dynamics and Benefits [11.801688624472009]
重量の指数移動平均(EMA)について系統的研究を行った。
EMA ソリューションは最終項目のソリューションと異なることを示す。
重みのEMAは、深層学習モデルの性能を向上させるためのシンプルで効果的なプラグインであることが示唆された。
論文 参考訳(メタデータ) (2024-11-27T19:14:27Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Big Learning Expectation Maximization [13.709094150105566]
本稿では,共同,辺縁,直交の辺縁マッチングを同時に行うEMアップグレードであるBig Learning EM(BigLearn-EM)を提案する。
実験により,BigLearn-EMは高い確率で最適な結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-19T08:07:41Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Break a Lag: Triple Exponential Moving Average for Enhanced Optimization [2.0199251985015434]
本稿では,三重指数移動平均のパワーを利用する新しい最適化手法であるFAMEを紹介する。
FAMEはデータダイナミクスに対する応答性を高め、トレンド識別ラグを緩和し、学習効率を最適化する。
包括的評価は、画像分類、オブジェクト検出、セマンティックセグメンテーションを含む様々なコンピュータビジョンタスクを含み、FAMEを30の異なるアーキテクチャに統合する。
論文 参考訳(メタデータ) (2023-06-02T10:29:33Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce [8.067201256886733]
本稿では,アンサンブルモデルを文脈的ランクアグリゲータに置き換えた新しいラーニング・トゥ・エンサンブル・フレームワークRAEGOを提案する。
RA-EGOは当社のオンラインシステムにデプロイされ、収益を大幅に改善しました。
論文 参考訳(メタデータ) (2021-07-19T03:24:06Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。