論文の概要: Switch EMA: A Free Lunch for Better Flatness and Sharpness
- arxiv url: http://arxiv.org/abs/2402.09240v1
- Date: Wed, 14 Feb 2024 15:28:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:55:23.722016
- Title: Switch EMA: A Free Lunch for Better Flatness and Sharpness
- Title(参考訳): Switch EMA: フラットネスとシャープネス向上のためのフリーランチ
- Authors: Siyuan Li, Zicheng Liu, Juanxi Tian, Ge Wang, Zedong Wang, Weiyang
Jin, Di Wu, Cheng Tan, Tao Lin, Yang Liu, Baigui Sun, and Stan Z. Li
- Abstract要約: この研究は、一行の修正、すなわち、スイッチ(SEMA)と呼ばれる各エポック後のパラメータを元のモデルに切り替えることによって、EMAの完全なポテンシャルを明らかにする。
理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。
- 参考スコア(独自算出の注目度): 58.55452862747021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exponential Moving Average (EMA) is a widely used weight averaging (WA)
regularization to learn flat optima for better generalizations without extra
cost in deep neural network (DNN) optimization. Despite achieving better
flatness, existing WA methods might fall into worse final performances or
require extra test-time computations. This work unveils the full potential of
EMA with a single line of modification, i.e., switching the EMA parameters to
the original model after each epoch, dubbed as Switch EMA (SEMA). From both
theoretical and empirical aspects, we demonstrate that SEMA can help DNNs to
reach generalization optima that better trade-off between flatness and
sharpness. To verify the effectiveness of SEMA, we conduct comparison
experiments with discriminative, generative, and regression tasks on vision and
language datasets, including image classification, self-supervised learning,
object detection and segmentation, image generation, video prediction,
attribute regression, and language modeling. Comprehensive results with popular
optimizers and networks show that SEMA is a free lunch for DNN training by
improving performances and boosting convergence speeds.
- Abstract(参考訳): Exponential moving Average (EMA)は、ディープニューラルネットワーク(DNN)最適化に余分なコストを要さずに、フラットな最適化を学習するために広く使われているウェイト平均化(WA)正規化である。
平坦性が向上したにもかかわらず、既存のWAメソッドは最終的なパフォーマンスが悪くなり、追加のテスト時間計算が必要になる。
この研究は、EMAの完全なポテンシャルを1行の修正で明らかにし、すなわち、スイッチEMA (SEMA) と呼ばれる各エポック後のEMAパラメータを元のモデルに切り替える。
理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。
SEMAの有効性を検証するため,画像分類,自己教師付き学習,物体検出とセグメンテーション,画像生成,映像予測,属性回帰,言語モデリングなど,視覚・言語データセットに対する識別的・生成的・回帰的タスクの比較実験を行った。
一般的なオプティマイザとネットワークによる総合的な結果から,SEMAはDNNトレーニングの無料ランチであり,性能の向上と収束速度の向上が期待できる。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Big Learning Expectation Maximization [13.709094150105566]
本稿では,共同,辺縁,直交の辺縁マッチングを同時に行うEMアップグレードであるBig Learning EM(BigLearn-EM)を提案する。
実験により,BigLearn-EMは高い確率で最適な結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-19T08:07:41Z) - How to Scale Your EMA [20.94711634514331]
モデルEMAが存在する場合、最適化のためのスケーリングルールを提供する。
本稿では,モデルEMAが対象モデルの最適化に寄与するルールの有効性を示す。
自己指導型学習では、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-25T20:33:48Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce [8.067201256886733]
本稿では,アンサンブルモデルを文脈的ランクアグリゲータに置き換えた新しいラーニング・トゥ・エンサンブル・フレームワークRAEGOを提案する。
RA-EGOは当社のオンラインシステムにデプロイされ、収益を大幅に改善しました。
論文 参考訳(メタデータ) (2021-07-19T03:24:06Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。