論文の概要: MTAdam: Automatic Balancing of Multiple Training Loss Terms
- arxiv url: http://arxiv.org/abs/2006.14683v1
- Date: Thu, 25 Jun 2020 20:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:20:59.408836
- Title: MTAdam: Automatic Balancing of Multiple Training Loss Terms
- Title(参考訳): mtadam: 複数のトレーニング損失項の自動バランス
- Authors: Itzik Malkiel, Lior Wolf
- Abstract要約: 複数の損失項を扱うためにAdam最適化アルゴリズムを一般化する。
新たな手法によるトレーニングは, 最適初期損失重み付けの早期回復につながることを示す。
- 参考スコア(独自算出の注目度): 95.99508450208813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When training neural models, it is common to combine multiple loss terms. The
balancing of these terms requires considerable human effort and is
computationally demanding. Moreover, the optimal trade-off between the loss
term can change as training progresses, especially for adversarial terms. In
this work, we generalize the Adam optimization algorithm to handle multiple
loss terms. The guiding principle is that for every layer, the gradient
magnitude of the terms should be balanced. To this end, the Multi-Term Adam
(MTAdam) computes the derivative of each loss term separately, infers the first
and second moments per parameter and loss term, and calculates a first moment
for the magnitude per layer of the gradients arising from each loss. This
magnitude is used to continuously balance the gradients across all layers, in a
manner that both varies from one layer to the next and dynamically changes over
time. Our results show that training with the new method leads to fast recovery
from suboptimal initial loss weighting and to training outcomes that match
conventional training with the prescribed hyperparameters of each method.
- Abstract(参考訳): 神経モデルのトレーニングでは、複数の損失項を組み合わせるのが一般的である。
これらの用語のバランスにはかなりの人的努力が必要であり、計算的に要求される。
さらに、損失項間の最適なトレードオフは、トレーニングが進むにつれて変化しうる。
本研究では、Adam最適化アルゴリズムを一般化し、複数の損失項を扱う。
導出原理は、すべての層に対して、項の勾配の等級はバランスをとるべきであるということである。
この目的のために、多項adam(mtadam)は、各損失項の微分を別々に計算し、パラメータ毎及び損失項毎の第1及び第2モーメントを推定し、各損失から生じる勾配の層毎のモーメントに対する第1モーメントを算出する。
この大きさは、すべての層にまたがる勾配の連続的なバランスをとるために使用され、どちらも1つの層から次の層に変化し、時間とともに動的に変化する。
以上の結果から,新しい手法を用いたトレーニングは,最適初期損失重み付けから,従来のトレーニングと所定のハイパーパラメータを一致させるトレーニング結果へと高速に回復することが示唆された。
関連論文リスト
- Implicit biases in multitask and continual learning from a backward
error analysis perspective [5.710971447109951]
勾配降下学習ニューラルネットワークのマルチタスクおよび連続学習設定における暗黙的学習バイアスを計算した。
トレーニング中に暗黙的に最小化される修正された損失を導出します。
論文 参考訳(メタデータ) (2023-11-01T02:37:32Z) - Cut your Losses with Squentropy [19.924900110707284]
ここでは、クロスエントロピー損失と、不正なクラスに対する平均平方損失という2つの項の和である「スカントロピー」損失を提案する。
その結果, スクエントロピーの損失は, 純粋なクロスエントロピーと再スケールした正方形損失の両方において, 分類精度において優れていた。
論文 参考訳(メタデータ) (2023-02-08T09:21:13Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Between Stochastic and Adversarial Online Convex Optimization: Improved
Regret Bounds via Smoothness [2.628557920905129]
我々は,オンライン凸最適化において,対人的損失と完全対人的損失を補間する新たな後悔境界を確立する。
この目的を達成するために、損失系列に関連する2つの重要な量を導入し、累積分散と対角変動と呼ぶ。
完全な i.d. の場合、我々の境界は加速の結果から期待される速度と一致し、完全に反対の場合、ミニマックスの後悔と一致するように優雅に劣化する。
論文 参考訳(メタデータ) (2022-02-15T16:39:33Z) - Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。
最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。
実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文 参考訳(メタデータ) (2021-09-12T23:14:06Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - The Golden Ratio of Learning and Momentum [0.5076419064097732]
本稿では,シナプスにおけるニューラル信号処理による情報理論的損失関数を提案する。
すべての結果は、損失、学習率、モーメントが密接に関連していることを示している。
論文 参考訳(メタデータ) (2020-06-08T17:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。