Fugu-MT 論文翻訳(概要): MTAdam: Automatic Balancing of Multiple Training Loss Terms

論文の概要: MTAdam: Automatic Balancing of Multiple Training Loss Terms

arxiv url: http://arxiv.org/abs/2006.14683v1
Date: Thu, 25 Jun 2020 20:27:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 03:20:59.408836
Title: MTAdam: Automatic Balancing of Multiple Training Loss Terms
Title（参考訳）: mtadam: 複数のトレーニング損失項の自動バランス
Authors: Itzik Malkiel, Lior Wolf
Abstract要約: 複数の損失項を扱うためにAdam最適化アルゴリズムを一般化する。新たな手法によるトレーニングは, 最適初期損失重み付けの早期回復につながることを示す。
参考スコア（独自算出の注目度）: 95.99508450208813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When training neural models, it is common to combine multiple loss terms. The balancing of these terms requires considerable human effort and is computationally demanding. Moreover, the optimal trade-off between the loss term can change as training progresses, especially for adversarial terms. In this work, we generalize the Adam optimization algorithm to handle multiple loss terms. The guiding principle is that for every layer, the gradient magnitude of the terms should be balanced. To this end, the Multi-Term Adam (MTAdam) computes the derivative of each loss term separately, infers the first and second moments per parameter and loss term, and calculates a first moment for the magnitude per layer of the gradients arising from each loss. This magnitude is used to continuously balance the gradients across all layers, in a manner that both varies from one layer to the next and dynamically changes over time. Our results show that training with the new method leads to fast recovery from suboptimal initial loss weighting and to training outcomes that match conventional training with the prescribed hyperparameters of each method.
Abstract（参考訳）: 神経モデルのトレーニングでは、複数の損失項を組み合わせるのが一般的である。これらの用語のバランスにはかなりの人的努力が必要であり、計算的に要求される。さらに、損失項間の最適なトレードオフは、トレーニングが進むにつれて変化しうる。本研究では、Adam最適化アルゴリズムを一般化し、複数の損失項を扱う。導出原理は、すべての層に対して、項の勾配の等級はバランスをとるべきであるということである。この目的のために、多項adam(mtadam)は、各損失項の微分を別々に計算し、パラメータ毎及び損失項毎の第1及び第2モーメントを推定し、各損失から生じる勾配の層毎のモーメントに対する第1モーメントを算出する。この大きさは、すべての層にまたがる勾配の連続的なバランスをとるために使用され、どちらも1つの層から次の層に変化し、時間とともに動的に変化する。以上の結果から,新しい手法を用いたトレーニングは,最適初期損失重み付けから,従来のトレーニングと所定のハイパーパラメータを一致させるトレーニング結果へと高速に回復することが示唆された。

関連論文リスト

Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks [59.552873049024775]
計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
論文参考訳（メタデータ） (2025-07-02T20:03:34Z)
Thumb on the Scale: Optimal Loss Weighting in Last Layer Retraining [29.12578724826307]
この研究は、目に見えない制限(リトレーニング)データがしばしば分離不能であり、モデルが比例的にサイズである最後の層再トレーニング(LLR)の仕組みを探求する。理論と実践において、損失重み付けは依然としてこの体制に有効であることを示す。
論文参考訳（メタデータ） (2025-06-24T21:48:58Z)
Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
校正誤差と校正誤差は,訓練中に同時に最小化されないことを示す。我々は,早期停止とハイパーパラメータチューニングのための新しい指標を導入し,トレーニング中の改善誤差を最小限に抑える。本手法は,任意のアーキテクチャとシームレスに統合し,多様な分類タスクにおける性能を継続的に向上する。
論文参考訳（メタデータ） (2025-01-31T15:03:54Z)
Implicit biases in multitask and continual learning from a backward error analysis perspective [5.710971447109951]
勾配降下学習ニューラルネットワークのマルチタスクおよび連続学習設定における暗黙的学習バイアスを計算した。トレーニング中に暗黙的に最小化される修正された損失を導出します。
論文参考訳（メタデータ） (2023-11-01T02:37:32Z)
Cut your Losses with Squentropy [19.924900110707284]
ここでは、クロスエントロピー損失と、不正なクラスに対する平均平方損失という2つの項の和である「スカントロピー」損失を提案する。その結果, スクエントロピーの損失は, 純粋なクロスエントロピーと再スケールした正方形損失の両方において, 分類精度において優れていた。
論文参考訳（メタデータ） (2023-02-08T09:21:13Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
Between Stochastic and Adversarial Online Convex Optimization: Improved Regret Bounds via Smoothness [2.628557920905129]
我々は,オンライン凸最適化において,対人的損失と完全対人的損失を補間する新たな後悔境界を確立する。この目的を達成するために、損失系列に関連する2つの重要な量を導入し、累積分散と対角変動と呼ぶ。完全な i.d. の場合、我々の境界は加速の結果から期待される速度と一致し、完全に反対の場合、ミニマックスの後悔と一致するように優雅に劣化する。
論文参考訳（メタデータ） (2022-02-15T16:39:33Z)
Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文参考訳（メタデータ） (2021-09-12T23:14:06Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文参考訳（メタデータ） (2021-07-21T16:41:57Z)
Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文参考訳（メタデータ） (2020-08-28T04:29:54Z)
The Golden Ratio of Learning and Momentum [0.5076419064097732]
本稿では,シナプスにおけるニューラル信号処理による情報理論的損失関数を提案する。すべての結果は、損失、学習率、モーメントが密接に関連していることを示している。
論文参考訳（メタデータ） (2020-06-08T17:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。