論文の概要: Careful with that Scalpel: Improving Gradient Surgery with an EMA
- arxiv url: http://arxiv.org/abs/2402.02998v1
- Date: Mon, 5 Feb 2024 13:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:55:33.892147
- Title: Careful with that Scalpel: Improving Gradient Surgery with an EMA
- Title(参考訳): EMAによるグラディエント手術の改善
- Authors: Yu-Guan Hsieh, James Thornton, Eugene Ndiaye, Michal Klein, Marco
Cuturi, Pierre Ablin
- Abstract要約: 簡単な和以上の勾配をブレンドすることで、パフォーマンスを向上させる方法を示す。
我々は,我々の手法であるBloopが,NLPおよび視覚実験において,より優れた性能を実現することを実証した。
- 参考スコア(独自算出の注目度): 32.73961859864032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beyond minimizing a single training loss, many deep learning estimation
pipelines rely on an auxiliary objective to quantify and encourage desirable
properties of the model (e.g. performance on another dataset, robustness,
agreement with a prior). Although the simplest approach to incorporating an
auxiliary loss is to sum it with the training loss as a regularizer, recent
works have shown that one can improve performance by blending the gradients
beyond a simple sum; this is known as gradient surgery. We cast the problem as
a constrained minimization problem where the auxiliary objective is minimized
among the set of minimizers of the training loss. To solve this bilevel
problem, we follow a parameter update direction that combines the training loss
gradient and the orthogonal projection of the auxiliary gradient to the
training gradient. In a setting where gradients come from mini-batches, we
explain how, using a moving average of the training loss gradients, we can
carefully maintain this critical orthogonality property. We demonstrate that
our method, Bloop, can lead to much better performances on NLP and vision
experiments than other gradient surgery methods without EMA.
- Abstract(参考訳): 単一のトレーニング損失を最小限にするだけでなく、多くのディープラーニング推定パイプラインは、モデルの望ましい特性(例えば、別のデータセットのパフォーマンス、堅牢性、事前の合意など)を定量化し、奨励するための補助目的に依存している。
補助的損失を組み込む最も単純な方法は、正規化剤としてのトレーニング損失を和らげることであるが、近年の研究では、簡単な和以上の勾配をブレンドすることで性能を向上させることが示されている。
本稿では,トレーニング損失の最小化セットの中で補助目標を最小化する制約付き最小化問題として,この問題を論じる。
この2レベル問題を解決するために、トレーニング損失勾配とトレーニング勾配に対する補助勾配の直交射影を組み合わせたパラメータ更新方向に従う。
ミニバッチから勾配が生じる環境では、トレーニング損失勾配の移動平均を用いて、この臨界直交特性を慎重に維持する方法について説明する。
我々は,我々の方法であるBloopが,EMAを使わずに他の勾配手術法よりもNLPや視覚実験に優れた性能をもたらすことを実証した。
関連論文リスト
- Continual Learning with Scaled Gradient Projection [8.847574864259391]
ニューラルネットワークでは、連続学習はシーケンシャルタスク間の勾配干渉を引き起こし、新しいタスクを学習しながら古いタスクを忘れてしまう。
本稿では,忘れを最小化しつつ,新しい学習を改善するためのスケールドグラディエント・プロジェクション(SGP)手法を提案する。
画像の連続的分類から強化学習タスクまでに及ぶ実験を行い、最先端の手法よりも訓練オーバーヘッドの少ない性能を報告した。
論文 参考訳(メタデータ) (2023-02-02T19:46:39Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - MBGDT:Robust Mini-Batch Gradient Descent [4.141960931064351]
本研究では,ベイズ回帰や勾配降下といった基礎学習者による新たな手法を導入し,モデルの脆弱性を解消する。
ミニバッチ勾配降下はより堅牢な収束を可能にするため、ミニバッチ勾配降下法(Mini-Batch Gradient Descent with Trimming (MBGDT))を提案する。
提案手法は,提案手法を設計データセットに適用した場合に,最先端性能を示し,複数のベースラインよりも堅牢性が高い。
論文 参考訳(メタデータ) (2022-06-14T19:52:23Z) - Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。
勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。
実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-16T01:42:25Z) - Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning [13.937644559223548]
ディープニューラルネットワーク(DNN)をうまく一般化するためのトレーニング方法が、ディープラーニングの中心的な関心事である。
最適化時の損失関数の勾配ノルムをペナルティ化することにより,モデル一般化を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:03:45Z) - Bilevel learning of l1-regularizers with closed-form gradients(BLORC) [8.138650738423722]
本稿では,スパーシティー促進型正規化器の教師あり学習法を提案する。
これらのパラメータは、基底真理信号と測定ペアのトレーニングセットにおける再構成の平均2乗誤差を最小限に抑えるために学習される。
論文 参考訳(メタデータ) (2021-11-21T17:01:29Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。