論文の概要: BBS: Bi-directional Bit-level Sparsity for Deep Learning Acceleration
- arxiv url: http://arxiv.org/abs/2409.05227v1
- Date: Sun, 8 Sep 2024 21:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:58:34.051862
- Title: BBS: Bi-directional Bit-level Sparsity for Deep Learning Acceleration
- Title(参考訳): BBS:Deep Learning Accelerationのための双方向ビットレベルスポーザリティ
- Authors: Yuzong Chen, Jian Meng, Jae-sun Seo, Mohamed S. Abdelfattah,
- Abstract要約: ビットレベルのスパーシリティ法は非効率なゼロビット演算をスキップし、通常はビットシリアル深層学習アクセラレーターに適用される。
そこで本研究では,ビットレベル空間の実用性と効率を,新しいアルゴリズムによるビットプルーニング,平均化,圧縮手法により改善する。
ハードウェア面では、低オーバーヘッドでDNNを高速化する効率的なPE設計を備えたビットシリアルアーキテクチャであるBitVertによるBBSの可能性を示す。
- 参考スコア(独自算出の注目度): 9.092712730883887
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bit-level sparsity methods skip ineffectual zero-bit operations and are typically applicable within bit-serial deep learning accelerators. This type of sparsity at the bit-level is especially interesting because it is both orthogonal and compatible with other deep neural network (DNN) efficiency methods such as quantization and pruning. In this work, we improve the practicality and efficiency of bitlevel sparsity through a novel algorithmic bit-pruning, averaging, and compression method, and a co-designed efficient bit-serial hardware accelerator. On the algorithmic side, we introduce bidirectional bit sparsity (BBS). The key insight of BBS is that we can leverage bit sparsity in a symmetrical way to prune either zero-bits or one-bits. This significantly improves the load balance of bit-serial computing and guarantees the level of sparsity to be more than 50%. On top of BBS, we further propose two bit-level binary pruning methods that require no retraining, and can be seamlessly applied to quantized DNNs. Combining binary pruning with a new tensor encoding scheme, BBS can both skip computation and reduce the memory footprint associated with bi-directional sparse bit columns. On the hardware side, we demonstrate the potential of BBS through BitVert, a bitserial architecture with an efficient PE design to accelerate DNNs with low overhead, exploiting our proposed binary pruning. Evaluation on seven representative DNN models shows that our approach achieves: (1) on average 1.66$\times$ reduction in model sizewith negligible accuracy loss of < 0.5%; (2) up to 3.03$\times$ speedupand 2.44$\times$ energy saving compared to prior DNN accelerators.
- Abstract(参考訳): ビットレベルのスパーシリティ法は非効率なゼロビット演算をスキップし、通常はビットシリアル深層学習アクセラレーターに適用される。
量子化やプルーニングといった他のディープニューラルネットワーク(DNN)効率手法と直交し互換性があるため、ビットレベルでのこのような空間性は特に興味深い。
本研究では,新しいアルゴリズムによるビットプレーニング,平均化,圧縮手法,および協調設計による効率的なビットシリアルハードウェアアクセラレーションにより,ビットレベル空間の実用性と効率を向上する。
アルゴリズム面では、双方向ビット空間(BBS)を導入する。
BBSの鍵となる洞察は、0ビットまたは1ビットのプルークに対称的な方法でビット間隔を利用することができることである。
これによりビットシリアルコンピューティングの負荷バランスが大幅に改善され、スパーシリティのレベルが50%を超えることが保証される。
BBS上では、再学習を必要とせず、量子化されたDNNにシームレスに適用できる2つのビットレベルバイナリ・プルーニング法を提案する。
バイナリプルーニングと新しいテンソル符号化スキームを組み合わせることで、BBSは計算をスキップし、双方向スパースビット列に関連するメモリフットプリントを削減できる。
ハードウェア面では、高速なPE設計でDNNを低オーバーヘッドで高速化するビットシリアルアーキテクチャであるBitVertによるBBSの可能性を示し、提案したバイナリプルーニングを活用する。
1) 平均1.66$\times$モデルサイズを0.5%の精度で削減し, (2) 最大3.03$\times$スピードアップと2.44$\times$エネルギー節約を実現した。
関連論文リスト
- Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients [51.82488018573326]
重み付きニューラルネットワークのトレーニングに適した,新しいレイヤワイドオプティマイザであるQP-SBGDを提案する。
BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。
提案アルゴリズムは階層的に実装されており,リソース制限量子ハードウェア上での大規模ネットワークのトレーニングに適している。
論文 参考訳(メタデータ) (2023-10-23T17:32:38Z) - Optimizing data-flow in Binary Neural Networks [0.0]
本稿では,BNNパイプラインにおけるデータフローと並列性を向上させる新しいトレーニング手法を提案する。
また,ARM命令セットに対するバイナリ直接畳み込みを最適化した実装を提案する。
実験の結果,少なくとも1つの完全精度モデルに対して精度を低下させることなく,推論速度を一貫した改善(最先端の2つのBNNフレームワークと比較して最大1.91と2.73倍)した。
論文 参考訳(メタデータ) (2023-04-03T13:16:33Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - An Optical XNOR-Bitcount Based Accelerator for Efficient Inference of
Binary Neural Networks [0.0]
単一MRRを用いた光XNORゲート(OXG)を発明する
我々は光電荷蓄積器(PCA)と呼ばれるビットカウント回路の新規設計を提案する。
最新の4つのBNNを推定すると、OXBNNはFPS(F frames-per-second)とFPS/W(エネルギー効率)において最大62倍と7.6倍の改善を実現していることがわかる。
論文 参考訳(メタデータ) (2023-02-03T20:56:01Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - AdaBin: Improving Binary Neural Networks with Adaptive Binary Sets [27.022212653067367]
本稿では,重みとアクティベーションを共に1ビット値に分割したBNN(Binary Neural Networks)について検討する。
最適二元集合を適応的に得るために、AdaBin と呼ばれる単純で効果的なアプローチを提案する。
ベンチマークモデルとデータセットの実験結果は、提案されたAdaBinが最先端のパフォーマンスを達成可能であることを示している。
論文 参考訳(メタデータ) (2022-08-17T05:43:33Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - FTBNN: Rethinking Non-linearity for 1-bit CNNs and Going Beyond [23.5996182207431]
本稿では,二項化畳み込み過程が,その誤差を最小限に抑えるために線形性を増大させ,BNNの識別能力を損なうことを示す。
我々は、その矛盾を修正するために、適切な非線形モジュールを再検討し、調整することで、最先端のパフォーマンスを実現する強力なベースラインに繋がる。
論文 参考訳(メタデータ) (2020-10-19T08:11:48Z) - Distillation Guided Residual Learning for Binary Convolutional Neural
Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。
我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。
性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。
このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文 参考訳(メタデータ) (2020-07-10T07:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。