Fugu-MT 論文翻訳(概要): Switch EMA: A Free Lunch for Better Flatness and Sharpness

論文の概要: Switch EMA: A Free Lunch for Better Flatness and Sharpness

arxiv url: http://arxiv.org/abs/2402.09240v1
Date: Wed, 14 Feb 2024 15:28:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 14:55:23.722016
Title: Switch EMA: A Free Lunch for Better Flatness and Sharpness
Title（参考訳）: Switch EMA: フラットネスとシャープネス向上のためのフリーランチ
Authors: Siyuan Li, Zicheng Liu, Juanxi Tian, Ge Wang, Zedong Wang, Weiyang Jin, Di Wu, Cheng Tan, Tao Lin, Yang Liu, Baigui Sun, and Stan Z. Li
Abstract要約: この研究は、一行の修正、すなわち、スイッチ(SEMA)と呼ばれる各エポック後のパラメータを元のモデルに切り替えることによって、EMAの完全なポテンシャルを明らかにする。理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。
参考スコア（独自算出の注目度）: 58.55452862747021
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Exponential Moving Average (EMA) is a widely used weight averaging (WA) regularization to learn flat optima for better generalizations without extra cost in deep neural network (DNN) optimization. Despite achieving better flatness, existing WA methods might fall into worse final performances or require extra test-time computations. This work unveils the full potential of EMA with a single line of modification, i.e., switching the EMA parameters to the original model after each epoch, dubbed as Switch EMA (SEMA). From both theoretical and empirical aspects, we demonstrate that SEMA can help DNNs to reach generalization optima that better trade-off between flatness and sharpness. To verify the effectiveness of SEMA, we conduct comparison experiments with discriminative, generative, and regression tasks on vision and language datasets, including image classification, self-supervised learning, object detection and segmentation, image generation, video prediction, attribute regression, and language modeling. Comprehensive results with popular optimizers and networks show that SEMA is a free lunch for DNN training by improving performances and boosting convergence speeds.
Abstract（参考訳）: Exponential moving Average (EMA)は、ディープニューラルネットワーク(DNN)最適化に余分なコストを要さずに、フラットな最適化を学習するために広く使われているウェイト平均化(WA)正規化である。平坦性が向上したにもかかわらず、既存のWAメソッドは最終的なパフォーマンスが悪くなり、追加のテスト時間計算が必要になる。この研究は、EMAの完全なポテンシャルを1行の修正で明らかにし、すなわち、スイッチEMA (SEMA) と呼ばれる各エポック後のEMAパラメータを元のモデルに切り替える。理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。 SEMAの有効性を検証するため,画像分類,自己教師付き学習,物体検出とセグメンテーション,画像生成,映像予測,属性回帰,言語モデリングなど,視覚・言語データセットに対する識別的・生成的・回帰的タスクの比較実験を行った。一般的なオプティマイザとネットワークによる総合的な結果から,SEMAはDNNトレーニングの無料ランチであり,性能の向上と収束速度の向上が期待できる。

関連論文リスト

Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection [54.433899174017185]
信頼性の高い機械学習モデルを構築するには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。我々はKR-NFT(Knowledge Regularized Negative Feature Tuning)と呼ばれる新しい手法を提案する。 NFTは、事前訓練されたテキスト特徴に分布認識変換を適用し、正および負の特徴を異なる空間に効果的に分離する。 ImageNetデータセットから数発のサンプルをトレーニングすると、KR-NFTはID分類精度とOOD検出を改善するだけでなく、FPR95を5.44%削減する。
論文参考訳（メタデータ） (2025-07-26T07:44:04Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification [80.83325513157637]
Few-Shot Remote Sensing Scene Classification (FS-RSSC)は,限られたラベル付きサンプルを用いたリモートセンシング画像の分類の課題を示す。理想的なプラトン表現空間を構築することを目的とした,OTAT(Optimal Transport Adapter Tuning)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T07:04:24Z)
Exponential Moving Average of Weights in Deep Learning: Dynamics and Benefits [11.801688624472009]
重量の指数移動平均(EMA)について系統的研究を行った。 EMA ソリューションは最終項目のソリューションと異なることを示す。重みのEMAは、深層学習モデルの性能を向上させるためのシンプルで効果的なプラグインであることが示唆された。
論文参考訳（メタデータ） (2024-11-27T19:14:27Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection [42.33618249731874]
トレーニングデータにおけるエネルギースコアの最大化は、ドメイン一貫性のあるヘッセンの分類損失につながることを示す。我々は,両タスクの同時最適化を可能にする統合された微調整フレームワークを開発した。
論文参考訳（メタデータ） (2024-05-26T03:28:59Z)
Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。 AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。 AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-12T11:48:49Z)
Big Learning Expectation Maximization [13.709094150105566]
本稿では,共同,辺縁,直交の辺縁マッチングを同時に行うEMアップグレードであるBig Learning EM(BigLearn-EM)を提案する。実験により,BigLearn-EMは高い確率で最適な結果を得ることができることを示す。
論文参考訳（メタデータ） (2023-12-19T08:07:41Z)
How to Scale Your EMA [20.94711634514331]
モデルEMAが存在する場合、最適化のためのスケーリングルールを提供する。本稿では,モデルEMAが対象モデルの最適化に寄与するルールの有効性を示す。自己指導型学習では、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にする。
論文参考訳（メタデータ） (2023-07-25T20:33:48Z)
Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文参考訳（メタデータ） (2023-07-02T18:16:06Z)
Break a Lag: Triple Exponential Moving Average for Enhanced Optimization [2.0199251985015434]
本稿では,三重指数移動平均のパワーを利用する新しい最適化手法であるFAMEを紹介する。 FAMEはデータダイナミクスに対する応答性を高め、トレンド識別ラグを緩和し、学習効率を最適化する。包括的評価は、画像分類、オブジェクト検出、セマンティックセグメンテーションを含む様々なコンピュータビジョンタスクを含み、FAMEを30の異なるアーキテクチャに統合する。
論文参考訳（メタデータ） (2023-06-02T10:29:33Z)
Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文参考訳（メタデータ） (2022-07-21T12:50:54Z)
Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce [8.067201256886733]
本稿では,アンサンブルモデルを文脈的ランクアグリゲータに置き換えた新しいラーニング・トゥ・エンサンブル・フレームワークRAEGOを提案する。 RA-EGOは当社のオンラインシステムにデプロイされ、収益を大幅に改善しました。
論文参考訳（メタデータ） (2021-07-19T03:24:06Z)
When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文参考訳（メタデータ） (2021-06-03T02:08:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。