論文の概要: Explicit Regularization via Regularizer Mirror Descent
- arxiv url: http://arxiv.org/abs/2202.10788v1
- Date: Tue, 22 Feb 2022 10:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 15:42:44.794597
- Title: Explicit Regularization via Regularizer Mirror Descent
- Title(参考訳): 規則化鏡による明示的規則化
- Authors: Navid Azizan, Sahin Lale, and Babak Hassibi
- Abstract要約: 本稿では,正則化を用いたディープニューラルネットワーク(DNN)のトレーニング手法を提案する。
RMDはトレーニングデータを同時に補間し、重みの潜在的な機能を最小化する。
以上の結果から,RMDの性能は,勾配降下 (SGD) と重量減衰の両方よりも著しく良好であることが示唆された。
- 参考スコア(独自算出の注目度): 32.0512015286512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite perfectly interpolating the training data, deep neural networks
(DNNs) can often generalize fairly well, in part due to the "implicit
regularization" induced by the learning algorithm. Nonetheless, various forms
of regularization, such as "explicit regularization" (via weight decay), are
often used to avoid overfitting, especially when the data is corrupted. There
are several challenges with explicit regularization, most notably unclear
convergence properties. Inspired by convergence properties of stochastic mirror
descent (SMD) algorithms, we propose a new method for training DNNs with
regularization, called regularizer mirror descent (RMD). In highly
overparameterized DNNs, SMD simultaneously interpolates the training data and
minimizes a certain potential function of the weights. RMD starts with a
standard cost which is the sum of the training loss and a convex regularizer of
the weights. Reinterpreting this cost as the potential of an "augmented"
overparameterized network and applying SMD yields RMD. As a result, RMD
inherits the properties of SMD and provably converges to a point "close" to the
minimizer of this cost. RMD is computationally comparable to stochastic
gradient descent (SGD) and weight decay, and is parallelizable in the same
manner. Our experimental results on training sets with various levels of
corruption suggest that the generalization performance of RMD is remarkably
robust and significantly better than both SGD and weight decay, which
implicitly and explicitly regularize the $\ell_2$ norm of the weights. RMD can
also be used to regularize the weights to a desired weight vector, which is
particularly relevant for continual learning.
- Abstract(参考訳): トレーニングデータの完全な補間にもかかわらず、ディープラーニング(DNN)は、学習アルゴリズムによって引き起こされる「単純正則化」のために、しばしばかなりうまく一般化することができる。
にもかかわらず、特にデータが破損した場合の過度な適合を避けるために「明示的正則化(explicit regularization)」のような様々な形式がしばしば用いられる。
明示的な正規化にはいくつかの課題があり、特に不明瞭な収束特性がある。
確率的ミラー降下 (smd) アルゴリズムの収束特性に触発されて, 正則化によるdnnの訓練法として, 正則化ミラー降下 (rmd) を提案する。
高度にパラメータ化されたDNNでは、SMDはトレーニングデータを同時に補間し、重みの潜在的な機能を最小化する。
RMDはトレーニング損失の合計である標準コストと重量の凸正規化器から始まる。
このコストを"拡張された"過パラメータネットワークのポテンシャルと解釈し、SMDの収率を適用する。
その結果、MD は SMD の性質を継承し、このコストの最小化に確実に「閉じた」点に収束する。
RMDは確率勾配降下(SGD)や重み減衰と計算的に同等であり、同じ方法で並列化可能である。
その結果, RMD の一般化性能は, SGD とウェイト崩壊のどちらよりも著しく優れており, 加重の標準である $\ell_2$ を暗黙的に, 明示的に正則化することが示唆された。
RMDはまた、特に連続学習に関係のある所望の重みベクトルに重みを正規化するためにも用いられる。
関連論文リスト
- Deep Learning Weight Pruning with RMT-SVD: Increasing Accuracy and
Reducing Overfitting [0.0]
ディープニューラルネットワーク(DNN)の重み層のスペクトルをランダム行列理論(RMT)の手法を用いて研究・理解することができる。
本研究では,これらのRTT手法を用いて, DNNの重み付け層から, 特異値分解(SVD)を通して, どれ程の特異値を取り除くべきかを判断する。
MNISTで訓練した単純なDNNモデルについて,その結果を示す。
論文 参考訳(メタデータ) (2023-03-15T23:19:45Z) - The Generalization Error of Stochastic Mirror Descent on
Over-Parametrized Linear Models [37.6314945221565]
ディープネットワークは、目に見えないデータにうまく一般化することが知られている。
正規化特性は「良い」性質を持つ補間解が見つかることを保証している。
理論を検証し、2つのデータモデルを導入するシミュレーション結果を提案する。
論文 参考訳(メタデータ) (2023-02-18T22:23:42Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Implicit Regularization Properties of Variance Reduced Stochastic Mirror
Descent [7.00422423634143]
離散VRSMD推定器列は線形回帰において最小ミラー補間子に収束することを示す。
我々は、真のモデルがスパースである場合に設定したモデル推定精度を導出する。
論文 参考訳(メタデータ) (2022-04-29T19:37:24Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Preprint: Norm Loss: An efficient yet effective regularization method
for deep neural networks [7.214681039134488]
斜め多様体に基づく重み付き軟規則化法を提案する。
本手法は, CIFAR-10, CIFAR-100, ImageNet 2012データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-03-11T10:24:49Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。