論文の概要: Do We Need Zero Training Loss After Achieving Zero Training Error?
- arxiv url: http://arxiv.org/abs/2002.08709v2
- Date: Wed, 31 Mar 2021 07:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:50:10.820464
- Title: Do We Need Zero Training Loss After Achieving Zero Training Error?
- Title(参考訳): ゼロトレーニングエラーの達成にゼロトレーニング損失が必要か?
- Authors: Takashi Ishida, Ikko Yamane, Tomoya Sakai, Gang Niu, and Masashi
Sugiyama
- Abstract要約: 本研究では,遠心分離法(Emphflooding)と呼ばれる直接解法を提案する。
本研究では, 浸水により性能が向上し, 副産物として, 試験損失の2重降下曲線が誘導されることを実験的に示す。
- 参考スコア(独自算出の注目度): 76.44358201918156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterized deep networks have the capacity to memorize training data
with zero \emph{training error}. Even after memorization, the \emph{training
loss} continues to approach zero, making the model overconfident and the test
performance degraded. Since existing regularizers do not directly aim to avoid
zero training loss, it is hard to tune their hyperparameters in order to
maintain a fixed/preset level of training loss. We propose a direct solution
called \emph{flooding} that intentionally prevents further reduction of the
training loss when it reaches a reasonably small value, which we call the
\emph{flood level}. Our approach makes the loss float around the flood level by
doing mini-batched gradient descent as usual but gradient ascent if the
training loss is below the flood level. This can be implemented with one line
of code and is compatible with any stochastic optimizer and other regularizers.
With flooding, the model will continue to "random walk" with the same non-zero
training loss, and we expect it to drift into an area with a flat loss
landscape that leads to better generalization. We experimentally show that
flooding improves performance and, as a byproduct, induces a double descent
curve of the test loss.
- Abstract(参考訳): 過パラメータのディープネットワークは、0 \emph{training error}でトレーニングデータを記憶する能力を持つ。
記憶に残ると、 \emph{training loss} はゼロに近づき、モデルの信頼性が過大になり、テストパフォーマンスが低下する。
既存のレギュラライザーはトレーニング損失をゼロにすることが直接目的ではないため、トレーニング損失の固定/プリセットレベルを維持するためにハイパーパラメータを調整することは困難である。
我々は,ゆるやかに小さい値に達すると,故意にトレーニング損失の削減を防げる「emph{flood}」という直接解を提案し,それを「emph{flood level}」と呼ぶ。
本手法は,通常のように微小衝突勾配降下を行うことで,洪水レベルの周囲に損失を浮かませるが,訓練損失が洪水レベル以下であれば勾配上昇させる。
これは1行のコードで実装でき、任意の確率最適化器や他の正規化器と互換性がある。
浸水により、モデルは同じ非ゼロのトレーニング損失で「滅多に歩けない」ものとなり、より一般化につながる平らなロスランドスケープのある地域に漂流することを期待しています。
実験により,フラッディングは性能を向上し,副産物として試験損失の二重降下曲線を誘導することを示した。
関連論文リスト
- Careful with that Scalpel: Improving Gradient Surgery with an EMA [32.73961859864032]
簡単な和以上の勾配をブレンドすることで、パフォーマンスを向上させる方法を示す。
我々は,我々の手法であるBloopが,NLPおよび視覚実験において,より優れた性能を実現することを実証した。
論文 参考訳(メタデータ) (2024-02-05T13:37:00Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。
スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文 参考訳(メタデータ) (2023-01-09T18:50:03Z) - Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。
最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。
実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文 参考訳(メタデータ) (2021-09-12T23:14:06Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。