論文の概要: How Do Adam and Training Strategies Help BNNs Optimization?
- arxiv url: http://arxiv.org/abs/2106.11309v1
- Date: Mon, 21 Jun 2021 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 16:01:30.389828
- Title: How Do Adam and Training Strategies Help BNNs Optimization?
- Title(参考訳): Adam and Training StrategiesはBNNの最適化にどのように役立つか?
- Authors: Zechun Liu, Zhiqiang Shen, Shichao Li, Koen Helwegen, Dong Huang,
Kwang-Ting Cheng
- Abstract要約: 我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。
我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
- 参考スコア(独自算出の注目度): 50.22482900678071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The best performing Binary Neural Networks (BNNs) are usually attained using
Adam optimization and its multi-step training variants. However, to the best of
our knowledge, few studies explore the fundamental reasons why Adam is superior
to other optimizers like SGD for BNN optimization or provide analytical
explanations that support specific training strategies. To address this, in
this paper we first investigate the trajectories of gradients and weights in
BNNs during the training process. We show the regularization effect of
second-order momentum in Adam is crucial to revitalize the weights that are
dead due to the activation saturation in BNNs. We find that Adam, through its
adaptive learning rate strategy, is better equipped to handle the rugged loss
surface of BNNs and reaches a better optimum with higher generalization
ability. Furthermore, we inspect the intriguing role of the real-valued weights
in binary networks, and reveal the effect of weight decay on the stability and
sluggishness of BNN optimization. Through extensive experiments and analysis,
we derive a simple training scheme, building on existing Adam-based
optimization, which achieves 70.5% top-1 accuracy on the ImageNet dataset using
the same architecture as the state-of-the-art ReActNet while achieving 1.1%
higher accuracy. Code and models are available at
https://github.com/liuzechun/AdamBNN.
- Abstract(参考訳): ベストパフォーマンスバイナリニューラルネットワーク(bnns)は通常、adam最適化とその多段階トレーニング変種を使用して達成される。
しかしながら、私たちの知る限りでは、AdamがBNN最適化のためのSGDや特定のトレーニング戦略をサポートする分析的説明など、他の最適化よりも優れている理由を調査する研究はほとんどない。
そこで本稿では,まずbnnにおける勾配と重みの軌跡について,訓練過程において検討する。
我々は,BNNの活性化飽和により死亡する重量を再活性化するために,アダムの2階運動量の正規化効果を示す。
適応学習率戦略により、AdamはBNNの粗い損失面を処理し、より高い一般化能力でより良い最適に到達できる。
さらに,二元ネットワークにおける実値重みの興味をそそる役割を検証し,bnn最適化の安定性と遅延性に及ぼす重み減衰の影響を明らかにする。
広範な実験と分析を通じて、既存のadamベースの最適化に基づいて、最先端のreactnetと同じアーキテクチャを使用してimagenetデータセット上で70.5%のtop-1精度を達成し、1.1%の精度を達成するシンプルなトレーニングスキームを導出する。
コードとモデルはhttps://github.com/liuzechun/AdamBNN.comで入手できる。
関連論文リスト
- Variational Learning is Effective for Large Deep Networks [76.94351631300788]
改良された変分オンラインニュートンは、大規模ネットワークのトレーニングにおいて、Adamと一貫して一致し、より優れていることを示す。
IVONの計算コストはAdamとほぼ同じであるが、予測の不確実性の方が優れている。
変分学習が効果的であるという圧倒的な証拠を見出す。
論文 参考訳(メタデータ) (2024-02-27T16:11:05Z) - Weight Prediction Boosts the Convergence of AdamW [3.7485728774744556]
我々は、ディープニューラルネットワーク(DNN)モデルをトレーニングする際の収束を高めるために、AdamWに重み予測を導入する。
特に、各ミニバッチトレーニングの前に、AdamWの更新ルールに従って将来の重量を予測し、予測された将来の重量を適用します。
論文 参考訳(メタデータ) (2023-02-01T02:58:29Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Spatial-Temporal-Fusion BNN: Variational Bayesian Feature Layer [77.78479877473899]
我々は,BNNを大規模モデルに効率的にスケールするための時空間BNNを設計する。
バニラBNNと比較して,本手法はトレーニング時間とパラメータ数を著しく削減し,BNNのスケールアップに有効である。
論文 参考訳(メタデータ) (2021-12-12T17:13:14Z) - "BNN - BN = ?": Training Binary Neural Networks without Batch
Normalization [92.23297927690149]
バッチ正規化(BN)は、最先端のバイナリニューラルネットワーク(BNN)に不可欠な重要なファシリテータである
BNNのトレーニングに彼らのフレームワークを拡張し、BNNのトレーニングや推論体制からBNを除去できることを初めて実証します。
論文 参考訳(メタデータ) (2021-04-16T16:46:57Z) - A Bop and Beyond: A Second Order Optimizer for Binarized Neural Networks [0.0]
Binary Neural Networks (BNNs) の最適化は、実数値の重みをバイナライズ表現で近似することに依存している。
本稿では,第2の生モーメント推定を用いて第1の生モーメントを正規化し,しきい値との比較を行うアダム法と並行する手法を提案する。
提案した2つのバージョン – バイアス付きバージョンとバイアス修正バージョン – をそれぞれ独自のアプリケーションで提示する。
論文 参考訳(メタデータ) (2021-04-11T22:20:09Z) - S2-BNN: Bridging the Gap Between Self-Supervised Real and 1-bit Neural
Networks via Guided Distribution Calibration [74.5509794733707]
本研究では, 実数値から, 最終予測分布上のバイナリネットワークへの誘導型学習パラダイムを提案する。
提案手法は,bnn上で5.515%の絶対利得で,単純なコントラスト学習ベースラインを向上できる。
提案手法は、単純なコントラスト学習ベースラインよりも大幅に改善され、多くの主流教師付きBNN手法に匹敵する。
論文 参考訳(メタデータ) (2021-02-17T18:59:28Z) - FTBNN: Rethinking Non-linearity for 1-bit CNNs and Going Beyond [23.5996182207431]
本稿では,二項化畳み込み過程が,その誤差を最小限に抑えるために線形性を増大させ,BNNの識別能力を損なうことを示す。
我々は、その矛盾を修正するために、適切な非線形モジュールを再検討し、調整することで、最先端のパフォーマンスを実現する強力なベースラインに繋がる。
論文 参考訳(メタデータ) (2020-10-19T08:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。