論文の概要: Stochastic Weight Averaging Revisited
- arxiv url: http://arxiv.org/abs/2201.00519v1
- Date: Mon, 3 Jan 2022 08:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:45:54.146135
- Title: Stochastic Weight Averaging Revisited
- Title(参考訳): 再訪した確率的重量平均
- Authors: Hao Guo, Jiyong Jin, Bin Liu
- Abstract要約: SWAの性能は、SWAが収束する前に実行されるSGDプロセスの程度に大きく依存していることを示す。
収束が不十分なSGDプロセスに続き、SWAの実行回数が増えると、一般化の観点で連続的な漸進的なメリットがもたらされることが示される。
- 参考スコア(独自算出の注目度): 5.68481425260348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Stochastic weight averaging (SWA) is recognized as a simple while one
effective approach to improve the generalization of stochastic gradient descent
(SGD) for training deep neural networks (DNNs). A common insight to explain its
success is that averaging weights following an SGD process equipped with
cyclical or high constant learning rates can discover wider optima, which then
lead to better generalization. We give a new insight that does not concur with
the above one. We characterize that SWA's performance is highly dependent on to
what extent the SGD process that runs before SWA converges, and the operation
of weight averaging only contributes to variance reduction. This new insight
suggests practical guides on better algorithm design. As an instantiation, we
show that following an SGD process with insufficient convergence, running SWA
more times leads to continual incremental benefits in terms of generalization.
Our findings are corroborated by extensive experiments across different network
architectures, including a baseline CNN, PreResNet-164, WideResNet-28-10,
VGG16, ResNet-50, ResNet-152, DenseNet-161, and different datasets including
CIFAR-{10,100}, and Imagenet.
- Abstract(参考訳): SWA(Stochastic weight averaging)は、ディープニューラルネットワーク(DNN)のトレーニングにおいて、SGD(Stochastic gradient descent)の一般化を改善するための1つの効果的なアプローチとして認識されている。
その成功を説明するための一般的な洞察は、循環的または高い定常学習率を備えたSGDプロセスに続く平均的な重み付けは、より広い最適性を発見し、より良い一般化をもたらすことである。
上記のものと一致しない新たな洞察を与えます。
SWAの性能はSWAが収束する前のSGDプロセスの程度に大きく依存しており、重量平均化の操作は分散低減にのみ寄与する。
この新しい洞察は、より良いアルゴリズム設計に関する実践的なガイドを示唆する。
インスタンス化により, 収束が不十分なSGDプロセスに従うと, SWAの実行回数が増加し, 一般化の点から連続的な漸進的なメリットが得られた。
この結果はcnn, preresnet-164, wideresnet-28-10, vgg16, resnet-50, resnet-152, densenet-161, and different datasets, cifar-{10,100}, imagenetなど,さまざまなネットワークアーキテクチャにわたる広範な実験によって裏付けられている。
関連論文リスト
- Improving Generalization and Convergence by Enhancing Implicit Regularization [15.806923167905026]
Inlicit Regularization Enhancement (IRE)フレームワークは、ディープラーニングにおけるフラットソリューションの発見を加速する。
IREは、平坦な方向と鋭い方向のダイナミクスを分離し、平坦な方向に沿って鋭さを減少させる。
計算オーバーロードを伴わずに,IREをエムジェネリックベースに事実上組み込むことができることを示す。
論文 参考訳(メタデータ) (2024-05-31T12:32:34Z) - Hierarchical Weight Averaging for Deep Neural Networks [39.45493779043969]
勾配降下(SGD)様アルゴリズムはディープニューラルネットワーク(DNN)の訓練に成功している
複数のモデルの重みを平均するウェイト平均化(WA)は、近年、文献に多くの注目を集めている。
本研究では、まず、オンラインおよびオフラインWAを階層重み平均化(HWA)と呼ばれる一般的なトレーニングフレームワークに組み込もうとする。
論文 参考訳(メタデータ) (2023-04-23T02:58:03Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Differentially private training of residual networks with scale
normalisation [64.60453677988517]
残差ネットワーク(ResNets)におけるバッチ正規化(BN)置換層の最適選択について検討する。
残差ブロックにおけるスケールミキシング現象について検討し、2つの枝の活性化を異なるスケールで行う。
論文 参考訳(メタデータ) (2022-03-01T09:56:55Z) - Multiplicative Reweighting for Robust Neural Network Optimization [51.67267839555836]
MW(multiplicative weight)更新は、専門家のアドバイスにより、適度なデータ破損に対して堅牢である。
MWはラベルノイズの存在下でニューラルネットワークの精度を向上することを示す。
論文 参考訳(メタデータ) (2021-02-24T10:40:25Z) - The Implicit Biases of Stochastic Gradient Descent on Deep Neural
Networks with Batch Normalization [44.30960913470372]
バッチ正規化(BN-DNN)を伴うディープニューラルネットワークは、その正規化操作のために重み付け再スケーリングには不変である。
BN-DNNにおける勾配降下(SGD)の暗黙バイアスについて検討し,重量減衰の有効性に関する理論的説明を行う。
論文 参考訳(メタデータ) (2021-02-06T03:40:20Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with
Wait-Avoiding Group Averaging [34.55741812648229]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z) - Scheduled Restart Momentum for Accelerated Stochastic Gradient Descent [32.40217829362088]
我々は、ディープニューラルネットワーク(DNN)をトレーニングするための新しいNAGスタイルのスキームを提案する。
SRSGDは、NAGの運動量の増加によってSGDの定数運動量を置き換えるが、スケジュールに従って運動量を0にリセットすることで繰り返しを安定化させる。
CIFARとImageNetの両方で、SRSGDはSGDベースラインと比較して、トレーニングのエポックを著しく少なくして、類似またはそれ以上のエラー率に達する。
論文 参考訳(メタデータ) (2020-02-24T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。