論文の概要: Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning
- arxiv url: http://arxiv.org/abs/2202.03599v1
- Date: Tue, 8 Feb 2022 02:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 03:12:48.600932
- Title: Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning
- Title(参考訳): ディープラーニングの一般化を効果的に改善するグラディエントノルムの罰則
- Authors: Yang Zhao, Hao Zhang and Xiuyuan Hu
- Abstract要約: ディープニューラルネットワーク(DNN)をうまく一般化するためのトレーニング方法が、ディープラーニングの中心的な関心事である。
最適化時の損失関数の勾配ノルムをペナルティ化することにより,モデル一般化を効果的に向上する手法を提案する。
- 参考スコア(独自算出の注目度): 13.937644559223548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to train deep neural networks (DNNs) to generalize well is a central
concern in deep learning, especially for severely overparameterized networks
nowadays. In this paper, we propose an effective method to improve the model
generalization by additionally penalizing the gradient norm of loss function
during optimization. We demonstrate that confining the gradient norm of loss
function could help lead the optimizers towards finding flat minima. We
leverage the first-order approximation to efficiently implement the
corresponding gradient to fit well in the gradient descent framework. In our
experiments, we confirm that when using our methods, generalization performance
of various models could be improved on different datasets. Also, we show that
the recent sharpness-aware minimization method \cite{DBLP:conf/iclr/ForetKMN21}
is a special, but not the best, case of our method, where the best case of our
method could give new state-of-art performance on these tasks.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)をうまく一般化するためにどのようにトレーニングするかは、ディープラーニングの中心的な関心事である。
本稿では、最適化時の損失関数の勾配ノルムを加味してモデル一般化を改善する効果的な方法を提案する。
損失関数の勾配ノルムを限定することで、最適化者が平坦な最小値を見つけるのに役立つことを実証する。
我々は1次近似を利用して対応する勾配を効率よく実装し、勾配降下フレームワークに適合する。
実験では,本手法を用いることで,異なるデータセット上での各種モデルの一般化性能が向上できることを確認した。
また,最近のシャープネスを意識した最小化手法である \cite{dblp:conf/iclr/foretkmn21} は特別なものであるが,本手法の最良の場合がこれらのタスクに新たな最先端性能をもたらすことを示す。
関連論文リスト
- Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Population Gradients improve performance across data-sets and
architectures in object classification [6.17047113475566]
ニューラルネットワーク(NN)の学習中に勾配を計算する新しい手法を提案する。
アーキテクチャ、データセット、ハイパーパラメータ値、トレーニング長、モデルサイズにわたる最終的なパフォーマンスを大幅に改善する。
私たちがテストした広範囲な状況において有効であるのに加えて、パフォーマンスの向上(例えば、F1)は他の広範なパフォーマンス改善手法のどれよりも高いか高いかのどちらかです。
論文 参考訳(メタデータ) (2020-10-23T09:40:23Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。