論文の概要: BitQ: Tailoring Block Floating Point Precision for Improved DNN Efficiency on Resource-Constrained Devices
- arxiv url: http://arxiv.org/abs/2409.17093v1
- Date: Wed, 25 Sep 2024 17:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 02:44:18.317255
- Title: BitQ: Tailoring Block Floating Point Precision for Improved DNN Efficiency on Resource-Constrained Devices
- Title(参考訳): BitQ: リソース制約デバイス上でのDNN効率向上のためのブロック浮動小数点精度の調整
- Authors: Yongqi Xu, Yujian Lee, Gao Yi, Bosheng Liu, Yucong Chen, Peng Liu, Jigang Wu, Xiaoming Chen, Yinhe Han,
- Abstract要約: ブロック浮動小数点(BFP)量子化は、メモリと計算負荷を減らすための代表的な圧縮手法の1つである。
組込みプラットフォーム上でのDNN推論の最良のBFP実装のためのBFPベースのビット幅対応解析モデルフレームワーク(BitQ')を開発した。
- 参考スコア(独自算出の注目度): 14.536949788395837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are powerful for cognitive tasks such as image classification, object detection, and scene segmentation. One drawback however is the significant high computational complexity and memory consumption, which makes them unfeasible to run real-time on embedded platforms because of the limited hardware resources. Block floating point (BFP) quantization is one of the representative compression approaches for reducing the memory and computational burden owing to their capability to effectively capture the broad data distribution of DNN models. Unfortunately, prior works on BFP-based quantization empirically choose the block size and the precision that preserve accuracy. In this paper, we develop a BFP-based bitwidth-aware analytical modeling framework (called ``BitQ'') for the best BFP implementation of DNN inference on embedded platforms. We formulate and resolve an optimization problem to identify the optimal BFP block size and bitwidth distribution by the trade-off of both accuracy and performance loss. Experimental results show that compared with an equal bitwidth setting, the BFP DNNs with optimized bitwidth allocation provide efficient computation, preserving accuracy on famous benchmarks. The source code and data are available at https://github.com/Cheliosoops/BitQ.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、画像分類、オブジェクト検出、シーンセグメンテーションなどの認知タスクに強力である。
しかし1つの欠点は、ハードウェアリソースが限られているため、組み込みプラットフォームでリアルタイムに実行できない、計算の複雑さとメモリ消費である。
ブロック浮動小数点量子化(ブロック浮動小数点量子化、BFP)は、DNNモデルの広範なデータ分布を効果的に捉える能力により、メモリと計算負荷を減らすための代表的な圧縮手法の1つである。
残念ながら、BFPベースの量子化に関する先行研究では、ブロックサイズと精度を維持する精度を実証的に選択した。
本稿では、組み込みプラットフォーム上でのDNN推論の最良のBFP実装のためのBFPベースのビット幅対応解析モデルフレームワーク( ``BitQ'')を開発する。
我々は,最適BFPブロックサイズとビット幅分布を,精度と性能損失のトレードオフによって決定・解決する最適化問題を定式化する。
実験結果から,BFP DNNはビット幅が等しく設定されているのに対し,最適化されたビット幅のDNNは効率よく計算し,有名なベンチマークで精度を保っていることがわかった。
ソースコードとデータはhttps://github.com/Cheliosoops/BitQ.comで公開されている。
関連論文リスト
- ZOBNN: Zero-Overhead Dependable Design of Binary Neural Networks with Deliberately Quantized Parameters [0.0]
本稿では,低精度ニューラルネットワークの3番目の利点として,耐故障性の改善について紹介する。
本稿では,メモリ障害がBNN(State-of-the-art binary neural network)に与える影響を包括的解析により検討する。
本稿では,新しい均一量子化手法により,フロートパラメータの範囲を制限することにより,BNNの信頼性を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T05:31:11Z) - Block Format Error Bounds and Optimal Block Size Selection [7.056118133284956]
ここで最も期待され、急速に進歩しているフロンティアの1つは、新しいデータフォーマットの作成である。
本稿では, 数値演算を用いた内部積の動的範囲, 数値的精度, 効率的なハードウェア実装の組み合わせにより, ブロック浮動小数点数値形式に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-11T14:15:09Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - FlexBlock: A Flexible DNN Training Accelerator with Multi-Mode Block
Floating Point Support [8.596477111386083]
本稿では,複数のBFP精度を活用してトレーニングを高速化するアルゴリズムに基づく。
我々はFlexBlockと呼ばれる3つの異なるBFP精度モードをサポートするフレキシブルDNNトレーニングアクセラレータを開発した。
CIFAR, ImageNet, WMT14データセット上でよく知られたDNNを用いてFlexBlockアーキテクチャの有効性を評価する。
論文 参考訳(メタデータ) (2022-03-13T15:05:34Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - FAST: DNN Training Under Variable Precision Block Floating Point with
Stochastic Rounding [11.820523621760255]
ブロック浮動小数点(BFP)はディープニューラルネットワーク(DNN)トレーニングの量子化を効率的にサポートする。
重み,アクティベーション,勾配をBFPで表すDNNのためのFast First, Accurate Second Training (FAST)システムを提案する。
論文 参考訳(メタデータ) (2021-10-28T22:24:33Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - FracBNN: Accurate and FPGA-Efficient Binary Neural Networks with
Fractional Activations [20.218382369944152]
binary neural network (bnns) は1ビットの重みとアクティベーションを持つ。
BNNはImageNetのような現実的なデータセットの精度がはるかに低い傾向にある。
本研究では、BNNの精度を大幅に向上させるために分数活性化を利用するFracBNNを提案する。
論文 参考訳(メタデータ) (2020-12-22T17:49:30Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Distillation Guided Residual Learning for Binary Convolutional Neural
Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。
我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。
性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。
このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文 参考訳(メタデータ) (2020-07-10T07:55:39Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。