論文の概要: Exponential weight averaging as damped harmonic motion
- arxiv url: http://arxiv.org/abs/2310.13854v1
- Date: Fri, 20 Oct 2023 23:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 04:46:52.684823
- Title: Exponential weight averaging as damped harmonic motion
- Title(参考訳): 減衰した高調波運動における平均重み付け
- Authors: Jonathan Patsenker, Henry Li, Yuval Kluger
- Abstract要約: 指数移動平均 (EMA) は、ディープラーニング最適化において安定した量の推定値を提供するために一般的に用いられる統計量である。
本稿では, EMAと減衰調和系との間には, 理想化されたゼロ長ばねにより一方の粒子(EMA重み)を他方の粒子(モデル重み)に引いて有意な結合を導出する。
次に、この物理アナロジーを利用して、EMAの有効性を分析し、BELAYと呼ばれる改良されたトレーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 13.305570580429489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential moving average (EMA) is a commonly used statistic for
providing stable estimates of stochastic quantities in deep learning
optimization. Recently, EMA has seen considerable use in generative models,
where it is computed with respect to the model weights, and significantly
improves the stability of the inference model during and after training. While
the practice of weight averaging at the end of training is well-studied and
known to improve estimates of local optima, the benefits of EMA over the course
of training is less understood. In this paper, we derive an explicit connection
between EMA and a damped harmonic system between two particles, where one
particle (the EMA weights) is drawn to the other (the model weights) via an
idealized zero-length spring. We then leverage this physical analogy to analyze
the effectiveness of EMA, and propose an improved training algorithm, which we
call BELAY. Finally, we demonstrate theoretically and empirically several
advantages enjoyed by BELAY over standard EMA.
- Abstract(参考訳): 指数移動平均 (EMA) は、ディープラーニング最適化において確率量の安定推定を提供するために一般的に用いられる統計量である。
近年、EMAはモデル重みに関して計算される生成モデルにかなり利用されており、トレーニング中の推論モデルの安定性を大幅に改善している。
トレーニング終了時の体重平均化の実践は、局所最適推定を改善するためによく研究され、知られているが、トレーニングの過程でのEMAの利点は理解されていない。
本稿では, EMAと減衰調和系との間には, 理想化されたゼロ長ばねにより一方の粒子(EMA重み)を他方の粒子(モデル重み)に引いて有意な結合を導出する。
次に、この物理アナロジーを利用して、EMAの有効性を分析し、BELAYと呼ばれる改良されたトレーニングアルゴリズムを提案する。
最後に, BELAYが標準EMAよりも有益であることを示す。
関連論文リスト
- Learning Mixtures of Experts with EM [28.48469221248906]
エキスパートの混合(MoE)は、入力空間を含む機械学習モデルであり、各パーティションでトレーニングされた別の"エキスパート"モデルである。
本稿では,MoEモデルのトレーニングにおける期待最大化(EM)アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2024-11-09T03:44:09Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Supervised Contrastive Learning based Dual-Mixer Model for Remaining
Useful Life Prediction [3.081898819471624]
Remaining Useful Life (RUL)予測は、現在の予測モーメントからデバイスの完全な障害までの残時間を正確に見積もることを目的としている。
従来のRUL予測手法における時間的特徴と空間的特徴の厳密結合の欠点を克服するため,Dual-Mixerモデルと呼ばれる空間的時間的特徴抽出器を提案する。
提案手法の有効性は,C-MAPSSデータセットに関する他の最新の研究結果との比較により検証した。
論文 参考訳(メタデータ) (2024-01-29T14:38:44Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - How to Scale Your EMA [20.94711634514331]
モデルEMAが存在する場合、最適化のためのスケーリングルールを提供する。
本稿では,モデルEMAが対象モデルの最適化に寄与するルールの有効性を示す。
自己指導型学習では、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-25T20:33:48Z) - Self-learning locally-optimal hypertuning using maximum entropy, and
comparison of machine learning approaches for estimating fatigue life in
composite materials [0.0]
疲労損傷を予測するための最大エントロピーの原理に基づくML近傍近似アルゴリズムを開発した。
予測は、他のMLアルゴリズムと同様、高いレベルの精度を達成する。
論文 参考訳(メタデータ) (2022-10-19T12:20:07Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z) - Learning ergodic averages in chaotic systems [6.85316573653194]
本稿では,カオス的アトラクションの時間平均を予測する機械学習手法を提案する。
この手法はハイブリッドエコー状態ネットワーク(hESN)に基づく。
論文 参考訳(メタデータ) (2020-01-09T18:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。