論文の概要: Contrastive Weight Regularization for Large Minibatch SGD
- arxiv url: http://arxiv.org/abs/2011.08968v1
- Date: Tue, 17 Nov 2020 22:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 16:12:48.772722
- Title: Contrastive Weight Regularization for Large Minibatch SGD
- Title(参考訳): 大小バッチSGDの相対重み正規化
- Authors: Qiwei Yuan, Weizhe Hua, Yi Zhou, Cunxi Yu
- Abstract要約: 我々は新しい正規化手法、すなわち特異正規化(DReg)を導入する。
DRegはディープネットワークの特定のレイヤを複製し、両方のレイヤのパラメータを多様にすることを奨励する。
我々は,大バッチSGDを用いたDRegによるニューラルネットワークの最適化が,収束の著しい向上と性能向上を実現することを実証的に示す。
- 参考スコア(独自算出の注目度): 8.927483136015283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The minibatch stochastic gradient descent method (SGD) is widely applied in
deep learning due to its efficiency and scalability that enable training deep
networks with a large volume of data. Particularly in the distributed setting,
SGD is usually applied with large batch size. However, as opposed to
small-batch SGD, neural network models trained with large-batch SGD can hardly
generalize well, i.e., the validation accuracy is low. In this work, we
introduce a novel regularization technique, namely distinctive regularization
(DReg), which replicates a certain layer of the deep network and encourages the
parameters of both layers to be diverse. The DReg technique introduces very
little computation overhead. Moreover, we empirically show that optimizing the
neural network with DReg using large-batch SGD achieves a significant boost in
the convergence and improved generalization performance. We also demonstrate
that DReg can boost the convergence of large-batch SGD with momentum. We
believe that DReg can be used as a simple regularization trick to accelerate
large-batch training in deep learning.
- Abstract(参考訳): minibatch stochastic gradient descent method(sgd)は、大量のデータでディープネットワークをトレーニングできる効率とスケーラビリティのために、ディープラーニングに広く適用されている。
特に分散環境では、SGDは通常大きなバッチサイズで適用される。
しかし、小さなバッチSGDとは対照的に、大規模なバッチSGDで訓練されたニューラルネットワークモデルは、ほとんど一般化できない。
そこで本研究では,深層ネットワークの特定の層を複製し,両層のパラメータを多様にする,新たな正規化手法(DReg)を提案する。
DReg技術は計算オーバーヘッドを少なくする。
さらに,大バッチSGDを用いたDRegを用いたニューラルネットワークの最適化により,収束が著しく向上し,一般化性能が向上することを示す。
また,DRegは運動量を伴う大バッチSGDの収束を促進できることを示した。
DRegは、ディープラーニングにおける大規模バッチトレーニングを加速する単純な正規化トリックとして使用できると考えている。
関連論文リスト
- Incremental Gauss-Newton Descent for Machine Learning [0.0]
本稿では,ガウス・ニュートン法に基づく近似2次情報を利用したグラディエントDescentアルゴリズムの修正を提案する。
Incrmental Gauss-Newton Descent (IGND)と呼ばれる新しい手法は、基本的に標準SGDと同じ計算負担を持つ。
IGNDは、少なくとも最悪の場合には、SGDと同等以上の性能を保ちながら、SGDを著しく上回る。
論文 参考訳(メタデータ) (2024-08-10T13:52:40Z) - Implicit Bias in Noisy-SGD: With Applications to Differentially Private
Training [9.618473763561418]
Gradient Descent(SGD)を使用した小さなバッチによるDeep Neural Networks(DNN)のトレーニングでは、より大きなバッチよりも優れたテストパフォーマンスが得られる。
DNNのトレーニングで差分プライバシー(DP)を確保するために使用されるDP-SGDは、クリップされた勾配にガウスノイズを付加する。
驚くべきことに、大規模なバッチトレーニングは依然としてパフォーマンスを著しく低下させており、強力なDPが大量のバッチを使用する必要があることを保証しているため、重要な課題となっている。
論文 参考訳(メタデータ) (2024-02-13T10:19:33Z) - Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent [101.37242096601315]
分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
既存の理論では、分散化は必ず一般化される。
論文 参考訳(メタデータ) (2023-06-05T14:19:52Z) - Loss Landscape Dependent Self-Adjusting Learning Rates in Decentralized
Stochastic Gradient Descent [37.52828820578212]
大規模ディープラーニング(DL)トレーニングには分散ディープラーニング(DDL)が不可欠である。
大規模なバッチ設定では、パラメータ更新回数の削減を補うために、学習率を上昇させなければならない。
近年,訓練速度を向上させるために分散並列SGD(DPSGD)が提案されている。
論文 参考訳(メタデータ) (2021-12-02T17:23:25Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training [30.574484395380043]
分散モーメントSGD(DmSGD)は並列モーメントSGDよりも通信効率が高く、すべてのコンピューティングノードでグローバル平均が発生します。
DeLacent大バッチモーメント性能モデルを提案します。
論文 参考訳(メタデータ) (2021-04-24T16:21:01Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Stochastic Normalized Gradient Descent with Momentum for Large-Batch Training [9.964630991617764]
勾配降下(SGD)とその変種は機械学習における支配的最適化手法である。
本稿では,大規模バッチ学習のための運動量付き正規化勾配降下法(SNGM)を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:34:43Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。