Fugu-MT 論文翻訳(概要): How to Scale Your EMA

論文の概要: How to Scale Your EMA

arxiv url: http://arxiv.org/abs/2307.13813v2
Date: Thu, 27 Jul 2023 17:17:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-28 11:18:56.404424
Title: How to Scale Your EMA
Title（参考訳）: EMAのスケール方法
Authors: Dan Busbridge, Jason Ramapuram, Pierre Ablin, Tatiana Likhomanenko, Eeshan Gunesh Dhekane, Xavier Suau, Russ Webb
Abstract要約: モデルEMAの存在下での最適化のためのスケーリングルールを提供する。本稿では,モデルEMAが対象モデルの最適化に寄与するルールの有効性を示す。自己指導型学習では、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にする。
参考スコア（独自算出の注目度）: 12.363710451246986
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preserving training dynamics across batch sizes is an important tool for practical machine learning as it enables the trade-off between batch size and wall-clock time. This trade-off is typically enabled by a scaling rule, for example, in stochastic gradient descent, one should scale the learning rate linearly with the batch size. Another important tool for practical machine learning is the model Exponential Moving Average (EMA), which is a model copy that does not receive gradient information, but instead follows its target model with some momentum. This model EMA can improve the robustness and generalization properties of supervised learning, stabilize pseudo-labeling, and provide a learning signal for Self-Supervised Learning (SSL). Prior works have treated the model EMA separately from optimization, leading to different training dynamics across batch sizes and lower model performance. In this work, we provide a scaling rule for optimization in the presence of model EMAs and demonstrate its validity across a range of architectures, optimizers, and data modalities. We also show the rule's validity where the model EMA contributes to the optimization of the target model, enabling us to train EMA-based pseudo-labeling and SSL methods at small and large batch sizes. For SSL, we enable training of BYOL up to batch size 24,576 without sacrificing performance, optimally a 6$\times$ wall-clock time reduction.
Abstract（参考訳）: バッチサイズ間のトレーニングダイナミクスを維持することは、バッチサイズとウォールクロック時間のトレードオフを可能にするため、実用的な機械学習にとって重要なツールである。このトレードオフは通常、例えば確率的勾配勾配勾配において、バッチサイズと線形に学習率をスケールするスケーリングルールによって実現される。実用的な機械学習のためのもう1つの重要なツールは、指数移動平均(Exponential moving Average, EMA)モデルである。このモデルEMAは、教師付き学習の堅牢性と一般化性を改善し、擬似ラベルを安定化させ、自己監督学習(SSL)のための学習信号を提供する。以前の作業では、モデルのemaを最適化から切り離して扱い、バッチサイズとモデルパフォーマンスの異なるトレーニングダイナミクスを生み出した。本研究では、モデルEMAの存在下での最適化のためのスケーリングルールを提供し、その妥当性を様々なアーキテクチャ、最適化、データモダリティにわたって示す。また、モデルEMAがターゲットモデルの最適化に寄与するルールの有効性を示し、EMAベースの擬似ラベルとSSLメソッドを小規模かつ大規模なバッチサイズで訓練することを可能にする。 SSLでは、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にします。

関連論文リスト

Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文参考訳（メタデータ） (2025-08-20T17:54:21Z)
Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文参考訳（メタデータ） (2024-08-30T14:15:48Z)
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文参考訳（メタデータ） (2024-04-09T15:36:50Z)
Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-04T04:42:05Z)
Asynchronous Multi-Model Dynamic Federated Learning over Wireless Networks: Theory, Modeling, and Optimization [20.741776617129208]
分散機械学習(ML)の鍵となる技術として、フェデレートラーニング(FL)が登場した。まず、システムパラメータが学習性能に与える影響を捉えるために、長方形のスケジューリングステップと関数を定式化する。我々の分析は、デバイストレーニング変数と非同期スケジューリング決定の協調的影響に光を当てている。
論文参考訳（メタデータ） (2023-05-22T21:39:38Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文参考訳（メタデータ） (2022-04-13T21:39:15Z)
Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。 MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-03-09T17:26:53Z)
Automatic Learning of Subword Dependent Model Scales [50.105894487730545]
本研究では,アテンションエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールを手動チューニングと同様に効果的に学習できることを示す。提案手法は,手動では調整できないサブワード依存モデル尺度に拡張され,LBSは7%,SWBは3%改善した。
論文参考訳（メタデータ） (2021-10-18T13:48:28Z)
Robust MAML: Prioritization task buffer with adaptive learning process for model-agnostic meta-learning [15.894925018423665]
モデル非依存メタラーニング(MAML)は、最先端のメタラーニングアルゴリズムである。本稿では適応型学習方式と優先順位付けタスクバッファに基づくより堅牢なMAMLを提案する。メタ強化学習環境の実験結果は、実質的なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2021-03-15T09:34:34Z)
Transfer Learning without Knowing: Reprogramming Black-box Machine Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。 BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文参考訳（メタデータ） (2020-07-17T01:52:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。