論文の概要: OvSW: Overcoming Silent Weights for Accurate Binary Neural Networks
- arxiv url: http://arxiv.org/abs/2407.05257v1
- Date: Sun, 7 Jul 2024 05:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 20:37:03.732606
- Title: OvSW: Overcoming Silent Weights for Accurate Binary Neural Networks
- Title(参考訳): OvSW: 正確なバイナリニューラルネットワークのための無作為なウェイトを克服する
- Authors: Jingyang Xiang, Zuohui Chen, Siqi Li, Qing Wu, Yong Liu,
- Abstract要約: バイナリニューラルネットワーク(BNN)における重み付け更新の効率性について検討する。
バニラBNNでは、トレーニング中に重量の50%以上が変化していない。
この問題に対処するために、オーバーカム・サイレント・ウェイト(OvSW)を提案する。
- 参考スコア(独自算出の注目度): 19.41917323210239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary Neural Networks~(BNNs) have been proven to be highly effective for deploying deep neural networks on mobile and embedded platforms. Most existing works focus on minimizing quantization errors, improving representation ability, or designing gradient approximations to alleviate gradient mismatch in BNNs, while leaving the weight sign flipping, a critical factor for achieving powerful BNNs, untouched. In this paper, we investigate the efficiency of weight sign updates in BNNs. We observe that, for vanilla BNNs, over 50\% of the weights remain their signs unchanged during training, and these weights are not only distributed at the tails of the weight distribution but also universally present in the vicinity of zero. We refer to these weights as ``silent weights'', which slow down convergence and lead to a significant accuracy degradation. Theoretically, we reveal this is due to the independence of the BNNs gradient from the latent weight distribution. To address the issue, we propose Overcome Silent Weights~(OvSW). OvSW first employs Adaptive Gradient Scaling~(AGS) to establish a relationship between the gradient and the latent weight distribution, thereby improving the overall efficiency of weight sign updates. Additionally, we design Silence Awareness Decaying~(SAD) to automatically identify ``silent weights'' by tracking weight flipping state, and apply an additional penalty to ``silent weights'' to facilitate their flipping. By efficiently updating weight signs, our method achieves faster convergence and state-of-the-art performance on CIFAR10 and ImageNet1K dataset with various architectures. For example, OvSW obtains 61.6\% and 65.5\% top-1 accuracy on the ImageNet1K using binarized ResNet18 and ResNet34 architecture respectively. Codes are available at \url{https://github.com/JingyangXiang/OvSW}.
- Abstract(参考訳): バイナリニューラルネットワーク~(BNN)は、モバイルおよび組み込みプラットフォームにディープニューラルネットワークをデプロイするのに非常に効果的であることが証明されている。
既存のほとんどの研究は、量子化誤差の最小化、表現能力の向上、BNNの勾配ミスマッチを軽減するための勾配近似の設計に重点を置いている。
本稿では,BNNにおける重み付け更新の効率について検討する。
バニラBNNの場合、重量の50%以上はトレーニング中に変化せず、これらの重量は重量分布の尾部に分布するだけでなく、0付近に普遍的に存在していることが観察された。
これらの重みを `silent weights'' と呼び、収束を遅くし、精度を著しく低下させる。
理論的には、これはBNNs勾配が潜在重量分布から独立しているためである。
この問題に対処するため、オーバーカム・サイレント・ウェイツ~(OvSW)を提案する。
OvSWはまずAdaptive Gradient Scaling~(AGS)を用いて、勾配と潜在重量分布の関係を確立し、重量記号更新の全体的な効率を改善する。
さらに、ウェイトフリップ状態を追跡することによって「サイレントウェイト」を自動的に識別し、フリップを容易にするために「サイレントウェイト」に付加的なペナルティを適用するように、サイレント・アウェアネス・ディケーリング〜(SAD)を設計する。
CIFAR10およびImageNet1Kデータセットにおいて,重み付け符号を効率よく更新することにより,より高速な収束と最先端性能を実現する。
例えば、OvSW は ImageNet1K 上の 61.6\% と 65.5\% のトップ-1 の精度を、それぞれバイナライズされた ResNet18 と ResNet34 アーキテクチャを使って取得する。
コードは \url{https://github.com/JingyangXiang/OvSW} で公開されている。
関連論文リスト
- Improved Generalization of Weight Space Networks via Augmentations [53.87011906358727]
深度重み空間(DWS)における学習は新たな研究方向であり、2次元および3次元神経場(INRs, NeRFs)への応用
我々は、この過度な適合の理由を実証的に分析し、主要な理由は、DWSデータセットの多様性の欠如であることがわかった。
そこで本研究では,重み空間におけるデータ拡張戦略について検討し,重み空間に適応したMixUp法を提案する。
論文 参考訳(メタデータ) (2024-02-06T15:34:44Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - ReCU: Reviving the Dead Weights in Binary Neural Networks [153.6789340484509]
我々は,BNNのトレーニング中にほとんど更新されない重みのグループを指す「死重み」の影響について検討する。
ReCUによる「死重み」の復活は、量子化誤差が小さくなることを示す。
提案手法は,高速なBNNトレーニングだけでなく,CIFAR-10およびImageNet上での最先端のパフォーマンスも提供する。
論文 参考訳(メタデータ) (2021-03-23T08:11:20Z) - Self-Distribution Binary Neural Networks [18.69165083747967]
重みとアクティベーションの両方がバイナリ(すなわち1ビット表現)である2進ニューラルネットワーク(BNN)について研究する。
SD-BNN(Self-Distribution Biinary Neural Network)を提案する。
CIFAR-10とImageNetデータセットの実験では、提案されたSD-BNNは、最先端(SOTA)BNNよりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-03-03T13:39:52Z) - SiMaN: Sign-to-Magnitude Network Binarization [165.5630656849309]
重みバイナライゼーションは、高倍率重みを+1s、0sに符号化することで分析ソリューションを提供する。
二元化ネットワークの学習重みは、エントロピーを許さないラプラシアン分布に概ね従うことが証明される。
CIFAR-10 と ImageNet を用いて,シマナライゼーション (SiMaN) と呼ばれる手法の評価を行った。
論文 参考訳(メタデータ) (2021-02-16T07:03:51Z) - The Implicit Biases of Stochastic Gradient Descent on Deep Neural
Networks with Batch Normalization [44.30960913470372]
バッチ正規化(BN-DNN)を伴うディープニューラルネットワークは、その正規化操作のために重み付け再スケーリングには不変である。
BN-DNNにおける勾配降下(SGD)の暗黙バイアスについて検討し,重量減衰の有効性に関する理論的説明を行う。
論文 参考訳(メタデータ) (2021-02-06T03:40:20Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Sparsity-Control Ternary Weight Networks [34.00378876525579]
我々は、乗算を回避し、メモリと要求を大幅に削減できる3次重み -1, 0, +1 ネットワークのトレーニングに重点を置いている。
既存の3次重みネットワークのトレーニングアプローチでは、3次重みの間隔を制御できない。
3次重みネットワークをトレーニングするための第一時空間制御手法(SCA)を提案する。
論文 参考訳(メタデータ) (2020-11-01T18:06:26Z) - Train-by-Reconnect: Decoupling Locations of Weights from their Values [6.09170287691728]
トレーニングされていないディープニューラルネットワーク(DNN)は、トレーニングされたニューラルネットワークとは異なることを示す。
重みをリコネクションすることでDNNをトレーニングするためのLookahead Permutation(LaPerm)という新しい手法を提案する。
初期重みが1つの値を共有すると、我々の手法はより精度のよい重み付きニューラルネットワークを見つける。
論文 参考訳(メタデータ) (2020-03-05T12:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。