論文の概要: FixNorm: Dissecting Weight Decay for Training Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2103.15345v1
- Date: Mon, 29 Mar 2021 05:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:21:38.636496
- Title: FixNorm: Dissecting Weight Decay for Training Deep Neural Networks
- Title(参考訳): FixNorm: ディープニューラルネットワークをトレーニングするための軽量化
- Authors: Yucong Zhou, Yunxiao Sun, Zhao Zhong
- Abstract要約: 本研究では,2つのメカニズムを直接制御するFixNormという新しいトレーニング手法を提案する。
ImageNet分類タスクでは、FixNormによるEfficientNet-B0のトレーニングは77.7%を達成し、元のベースラインを明確なマージンで上回る。
- 参考スコア(独自算出の注目度): 7.820667552233989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight decay is a widely used technique for training Deep Neural
Networks(DNN). It greatly affects generalization performance but the underlying
mechanisms are not fully understood. Recent works show that for layers followed
by normalizations, weight decay mainly affects the effective learning rate.
However, despite normalizations have been extensively adopted in modern DNNs,
layers such as the final fully-connected layer do not satisfy this
precondition. For these layers, the effects of weight decay are still unclear.
In this paper, we comprehensively investigate the mechanisms of weight decay
and find that except for influencing effective learning rate, weight decay has
another distinct mechanism that is equally important: affecting generalization
performance by controlling cross-boundary risk. These two mechanisms together
give a more comprehensive explanation for the effects of weight decay. Based on
this discovery, we propose a new training method called FixNorm, which discards
weight decay and directly controls the two mechanisms. We also propose a simple
yet effective method to tune hyperparameters of FixNorm, which can find
near-optimal solutions in a few trials. On ImageNet classification task,
training EfficientNet-B0 with FixNorm achieves 77.7%, which outperforms the
original baseline by a clear margin. Surprisingly, when scaling MobileNetV2 to
the same FLOPS and applying the same tricks with EfficientNet-B0, training with
FixNorm achieves 77.4%, which is only 0.3% lower. A series of SOTA results show
the importance of well-tuned training procedures, and further verify the
effectiveness of our approach. We set up more well-tuned baselines using
FixNorm, to facilitate fair comparisons in the community.
- Abstract(参考訳): 重崩壊はディープニューラルネットワーク(DNN)のトレーニングに広く用いられているテクニックである。
一般化性能に大きな影響を与えるが、基礎となるメカニズムは完全には理解されていない。
近年の研究では, レイヤーの正規化に伴う重み劣化が, 有効学習率に大きく影響していることが示されている。
しかし、現在のDNNでは正規化が広く採用されているが、最終完全連結層のような層はこの前提条件を満たしていない。
これらの層では、重量減少の影響はまだ不明である。
本稿では, 重み崩壊のメカニズムを包括的に検討し, 有効学習率に影響を及ぼす以外は, 重み崩壊は, クロスバウンダリリスクの制御による一般化性能に影響を及ぼす, 等しく重要な別のメカニズムを持つことを見出した。
これら2つのメカニズムは、重量減衰の影響についてより包括的な説明を与える。
この発見に基づき, 重みの減衰を解消し, 2つの機構を直接制御するfixnormと呼ばれる新しい訓練法を提案する。
また、FixNormのハイパーパラメータを調整し、準最適解を数回の試行で発見できる簡易で効果的な方法を提案する。
ImageNet分類タスクでは、FixNormでEfficientNet-B0をトレーニングすると77.7%が達成され、元のベースラインをクリアマージンで上回る。
驚いたことに、MobileNetV2を同じFLOPSにスケーリングし、EfficientNet-B0で同じトリックを適用する場合、FixNormでのトレーニングは77.4%で、わずか0.3%以下である。
一連のSOTAの結果は、十分に調整されたトレーニング手順の重要性を示し、我々のアプローチの有効性をさらに検証する。
コミュニティでの公正な比較を容易にするために、FixNormを使ってよりよく調整されたベースラインを設定しました。
関連論文リスト
- Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - FedNAR: Federated Optimization with Normalized Annealing Regularization [54.42032094044368]
ウェイト崩壊の選択を探索し、ウェイト崩壊値が既存のFLアルゴリズムの収束に有意な影響を及ぼすことを確かめる。
我々は,既存のFLアルゴリズムにシームレスに統合可能なプラグインであるFederated Optimization with Normalized Annealing Regularization (FedNAR)を開発した。
論文 参考訳(メタデータ) (2023-10-04T21:11:40Z) - PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized
Deep Neural Networks [25.114642281756495]
ウェイト崩壊(Weight decay)は、ディープラーニングにおいて最も広く使われている正規化形式の一つである。
本稿では、勾配勾配勾配は、この目的に対して非効率なアルゴリズムであると主張している。
ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象に対する解は異なる目的の解と等価である。
論文 参考訳(メタデータ) (2022-10-06T17:22:40Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - SGD and Weight Decay Secretly Minimize the Rank of Your Neural Network [8.79431718760617]
ミニバッチSGDとウェイト崩壊によるトレーニングは、ウェイト行列のランク最小化へのバイアスを引き起こす。
このバイアスは、より小さなバッチサイズ、より高い学習率、より強いウェイト崩壊によってより顕著になる。
このバイアスと一般化の関係を実証的に検討し、テスト性能に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - The Implicit Biases of Stochastic Gradient Descent on Deep Neural
Networks with Batch Normalization [44.30960913470372]
バッチ正規化(BN-DNN)を伴うディープニューラルネットワークは、その正規化操作のために重み付け再スケーリングには不変である。
BN-DNNにおける勾配降下(SGD)の暗黙バイアスについて検討し,重量減衰の有効性に関する理論的説明を行う。
論文 参考訳(メタデータ) (2021-02-06T03:40:20Z) - MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization [60.36100335878855]
ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
我々は、神経核(NTK)理論を利用して、我々の重み付けが活性化を弱め、BN層のようなカオス状態にネットワークを移行することを証明する。
MimicNormは、ResNetsやShuffleNetのような軽量ネットワークなど、さまざまなネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減している。
論文 参考訳(メタデータ) (2020-10-19T07:42:41Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。