論文の概要: Layer-specific Optimization for Mixed Data Flow with Mixed Precision in
FPGA Design for CNN-based Object Detectors
- arxiv url: http://arxiv.org/abs/2009.01588v1
- Date: Thu, 3 Sep 2020 11:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 08:18:15.294423
- Title: Layer-specific Optimization for Mixed Data Flow with Mixed Precision in
FPGA Design for CNN-based Object Detectors
- Title(参考訳): cnn型物体検出器のfpga設計における混合精度データフローの層特異的最適化
- Authors: Duy Thanh Nguyen, Hyun Kim, and Hyuk-Jae Lee
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、集中的な計算と頻繁なメモリアクセスの両方を必要とする。
本稿では、異なる層に最適化された異なる組織を利用する層固有の設計を提案する。
提案手法は, 層固有の混合データフローと層固有の混合精度の2つの最適化手法を用いる。
- 参考スコア(独自算出の注目度): 16.56630393243829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) require both intensive computation and
frequent memory access, which lead to a low processing speed and large power
dissipation. Although the characteristics of the different layers in a CNN are
frequently quite different, previous hardware designs have employed common
optimization schemes for them. This paper proposes a layer-specific design that
employs different organizations that are optimized for the different layers.
The proposed design employs two layer-specific optimizations: layer-specific
mixed data flow and layer-specific mixed precision. The mixed data flow aims to
minimize the off-chip access while demanding a minimal on-chip memory (BRAM)
resource of an FPGA device. The mixed precision quantization is to achieve both
a lossless accuracy and an aggressive model compression, thereby further
reducing the off-chip access. A Bayesian optimization approach is used to
select the best sparsity for each layer, achieving the best trade-off between
the accuracy and compression. This mixing scheme allows the entire network
model to be stored in BRAMs of the FPGA to aggressively reduce the off-chip
access, and thereby achieves a significant performance enhancement. The model
size is reduced by 22.66-28.93 times compared to that in a full-precision
network with a negligible degradation of accuracy on VOC, COCO, and ImageNet
datasets. Furthermore, the combination of mixed dataflow and mixed precision
significantly outperforms the previous works in terms of both throughput,
off-chip access, and on-chip memory requirement.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、計算集約と頻繁なメモリアクセスの両方を必要とするため、処理速度が低く、消費電力も大きい。
cnnの異なる層の特徴はしばしば異なるが、以前のハードウェア設計では共通の最適化方式が採用されていた。
本稿では,異なる層に最適化された異なる組織を用いる層特異的設計を提案する。
提案手法は層特異的混合データフローと層特異的混合精度の2つの層特異的最適化を用いる。
混合データフローは、FPGAデバイスの最小のオンチップメモリ(BRAM)リソースを必要としながら、オフチップアクセスを最小限にすることを目的としている。
混合精度量子化は、ロスレス精度とアグレッシブモデル圧縮の両方を達成し、さらにオフチップアクセスを減少させる。
ベイズ最適化手法は各層に最適な間隔を選択するために用いられ、精度と圧縮の最良のトレードオフを実現する。
このミキシング方式により、FPGAのBRAMにネットワークモデル全体を格納し、オフチップアクセスを積極的に低減し、大幅な性能向上を実現する。
モデルサイズは、VOC、COCO、ImageNetデータセットの精度の低下が無視できる完全精度ネットワークと比較して22.66-28.93倍に縮小される。
さらに、混合データフローと混合精度の組み合わせは、スループット、オフチップアクセス、オンチップメモリ要求の両方において、以前の作業を大きく上回っている。
関連論文リスト
- Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions [20.241671088121144]
最近の量子化技術は、非常に微細な粒度で不均一な精度を実現している。
これらのネットワークは、個々の変数の精度設定をデコードし、変数を調整し、きめ細かい混合精度計算機能を提供するために、追加のハードウェアを必要とする。
ネットワークを細粒度の不均一な精度で効率的に実行するためのエンド・ツー・エンド協調設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T17:20:09Z) - Efficient and Effective Methods for Mixed Precision Neural Network
Quantization for Faster, Energy-efficient Inference [3.3213055774512648]
ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。
混合精度量子化法は,各レイヤの精度を選択的に調整し,タスク性能の最小低下を実現する。
タスク性能に及ぼすレイヤー精度選択の影響を推定するために,2つの方法を紹介した。
EAGLとALPSを用いて4ビット層と2ビット層を混合して完全精度を復元する。
論文 参考訳(メタデータ) (2023-01-30T23:26:33Z) - Channel-wise Mixed-precision Assignment for DNN Inference on Constrained
Edge Nodes [22.40937602825472]
最先端の混合精度は階層的に作用する、すなわち、各ネットワーク層の重みとアクティベーションのテンソルに異なるビット幅を使用する。
本研究では,各重みテンソルチャネルのビット幅を独立に選択する新しいNASを提案する。
我々のネットワークは、それぞれ最大63%と27%のメモリとエネルギーを削減します。
論文 参考訳(メタデータ) (2022-06-17T15:51:49Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions [43.27226390407956]
この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
提案するRMSMPは、画像分類と自然言語処理(BERT)の分野でテストされている。
同等の精度で、最先端技術の中で最高の精度を実現する。
論文 参考訳(メタデータ) (2021-10-30T02:53:35Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。
現在の解は均一であり、全てのフィルタに同じビット幅を使用する。
これは異なるフィルタの異なる感度を考慮せず、最適以下である。
混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文 参考訳(メタデータ) (2020-04-13T07:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。