論文の概要: LPYOLO: Low Precision YOLO for Face Detection on FPGA
- arxiv url: http://arxiv.org/abs/2207.10482v1
- Date: Thu, 21 Jul 2022 13:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:37:49.453855
- Title: LPYOLO: Low Precision YOLO for Face Detection on FPGA
- Title(参考訳): LPYOLO:FPGAによる顔検出用低精度YOLO
- Authors: Bestami G\"unay, Sefa Burak Okcu and Hasan \c{S}akir Bilge
- Abstract要約: 監視システムにおける顔検出は、セキュリティ市場の最も期待されている応用である。
TinyYolov3アーキテクチャは、顔検出のために再設計され、デプロイされる。
Modelは、FINNフレームワークとFINN-HLSライブラリを使用して、HLSベースのアプリケーションに変換される。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, number of edge computing devices and artificial intelligence
applications on them have advanced excessively. In edge computing, decision
making processes and computations are moved from servers to edge devices.
Hence, cheap and low power devices are required. FPGAs are very low power,
inclined to do parallel operations and deeply suitable devices for running
Convolutional Neural Networks (CNN) which are the fundamental unit of an
artificial intelligence application. Face detection on surveillance systems is
the most expected application on the security market. In this work, TinyYolov3
architecture is redesigned and deployed for face detection. It is a CNN based
object detection method and developed for embedded systems. PYNQ-Z2 is selected
as a target board which has low-end Xilinx Zynq 7020 System-on-Chip (SoC) on
it. Redesigned TinyYolov3 model is defined in numerous bit width precisions
with Brevitas library which brings fundamental CNN layers and activations in
integer quantized form. Then, the model is trained in a quantized structure
with WiderFace dataset. In order to decrease latency and power consumption,
onchip memory of the FPGA is configured as a storage of whole network
parameters and the last activation function is modified as rescaled HardTanh
instead of Sigmoid. Also, high degree of parallelism is applied to logical
resources of the FPGA. The model is converted to an HLS based application with
using FINN framework and FINN-HLS library which includes the layer definitions
in C++. Later, the model is synthesized and deployed. CPU of the SoC is
employed with multithreading mechanism and responsible for preprocessing,
postprocessing and TCP/IP streaming operations. Consequently, 2.4 Watt total
board power consumption, 18 Frames-Per-Second (FPS) throughput and 0.757 mAP
accuracy rate on Easy category of the WiderFace are achieved with 4 bits
precision model.
- Abstract(参考訳): 近年,エッジコンピューティングデバイスや人工知能アプリケーションが過度に進歩している。
エッジコンピューティングでは、意思決定プロセスと計算がサーバからエッジデバイスに移動されます。
そのため、安価で低消費電力の装置が必要となる。
FPGAは非常に低消費電力であり、並列処理や、人工知能アプリケーションの基本単位である畳み込みニューラルネットワーク(CNN)の実行に非常に適している。
監視システムの顔検出は、セキュリティ市場で最も期待されているアプリケーションである。
この作業では、tinyyolov3アーキテクチャが再設計され、顔検出のためにデプロイされる。
CNNに基づくオブジェクト検出手法であり,組込みシステム向けに開発された。
PYNQ-Z2は、Xilinx Zynq 7020 System-on-Chip(SoC)が載っているターゲットボードとして選択される。
再設計されたtinyyolov3モデルは、b brevitasライブラリで多数のビット幅精度で定義されており、基本的なcnn層と整数量子化形式のアクティベーションをもたらす。
次に、モデルはWiderFaceデータセットで量子化された構造でトレーニングされる。
レイテンシと消費電力を減らすため、FPGAのオンチップメモリはネットワークパラメータ全体のストレージとして構成され、最後のアクティベーション関数はSigmoidの代わりにHardTanhとして再スケールされる。
また、FPGAの論理資源にも高い並列性が適用される。
モデルは、C++のレイヤ定義を含むFINNフレームワークとFINN-HLSライブラリを使用して、HLSベースのアプリケーションに変換される。
その後、モデルは合成され、デプロイされる。
SoCのCPUにはマルチスレッド機構があり、前処理、後処理、TCP/IPストリーミング操作に責任がある。
その結果、WiderFaceのイージーカテゴリにおける2.4ワットのボード消費電力、18フレーム/秒(FPS)スループットと0.757mAP精度を4ビット精度モデルで達成した。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Towards Enabling Dynamic Convolution Neural Network Inference for Edge
Intelligence [0.0]
エッジインテリジェンスの最近の進歩は、スループットを高め、レイテンシを低減するために、エッジネットワーク上のCNN推論を必要とする。
柔軟性を得るためには、さまざまなモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。
本稿では,スケーラブルで動的に分散したCNN推論を高速に設計するためのライブラリベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-18T22:33:42Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - A Low-Cost Neural ODE with Depthwise Separable Convolution for Edge
Domain Adaptation on FPGAs [2.620638110026557]
ResNetは、多くのレイヤとパラメータを積み重ねた従来のディープニューラルネットワークモデルの1つである。
本稿では,ニューラルODEとDSCの組み合わせであるdsODENetをFPGA向けに設計,実装する。
その結果、ドメイン適応精度の点で、dsODENetはベースラインのNeural ODE実装に匹敵するか、わずかに優れていることが示された。
論文 参考訳(メタデータ) (2021-07-27T13:44:13Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - Compressing deep neural networks on FPGAs to binary and ternary
precision with HLS4ML [13.325670094073383]
本稿では, hls4mlライブラリにおける2次ニューラルネットワークと3次ニューラルネットワークの実装について述べる。
モデル精度と資源消費のトレードオフについて論じる。
二分法と三分法の実装は、FPGAリソースを劇的に減らしながら高い精度の実装と類似した性能を持つ。
論文 参考訳(メタデータ) (2020-03-11T10:46:51Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。