論文の概要: GnetDet: Object Detection Optimized on a 224mW CNN Accelerator Chip at
the Speed of 106FPS
- arxiv url: http://arxiv.org/abs/2103.15756v1
- Date: Fri, 19 Feb 2021 06:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:43:18.724592
- Title: GnetDet: Object Detection Optimized on a 224mW CNN Accelerator Chip at
the Speed of 106FPS
- Title(参考訳): GnetDet: 224mW CNN加速器チップ上で106FPSの速度で最適化されたオブジェクト検出
- Authors: Baohua Sun, Tao Zhang, Jiapeng Su, Hao Sha
- Abstract要約: CPU負荷を最小限に抑え、CNNアクセラレータチップ上のオブジェクト検出モデルを最適化する。
実験結果から, 224mW チップ上で動作する GnetDet モデルは106FPS の速度を精度良く達成できることがわかった。
- 参考スコア(独自算出の注目度): 10.644839299403612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection is widely used on embedded devices. With the wide
availability of CNN (Convolutional Neural Networks) accelerator chips, the
object detection applications are expected to run with low power consumption,
and high inference speed. In addition, the CPU load is expected to be as low as
possible for a CNN accelerator chip working as a co-processor with a host CPU.
In this paper, we optimize the object detection model on the CNN accelerator
chip by minimizing the CPU load. The resulting model is called GnetDet. The
experimental result shows that the GnetDet model running on a 224mW chip
achieves the speed of 106FPS with excellent accuracy.
- Abstract(参考訳): オブジェクト検出は組み込みデバイスで広く使われている。
CNN(Convolutional Neural Networks)アクセラレータチップの普及に伴い,オブジェクト検出アプリケーションは低消費電力,高推論速度で動作することが期待される。
さらに、CNNアクセラレータチップがホストCPUとコプロセッサとして動作する場合、CPU負荷は可能な限り低くなることが期待されている。
本稿では,CPU負荷を最小限に抑えて,CNNアクセラレータチップのオブジェクト検出モデルを最適化する。
結果として得られるモデルはGnetDetと呼ばれる。
実験結果から, 224mW チップ上で動作する GnetDet モデルは106FPS の速度を精度良く達成できることがわかった。
関連論文リスト
- H2PIPE: High throughput CNN Inference on FPGAs with High-Bandwidth Memory [1.0056445773367833]
畳み込みニューラルネットワーク(CNN)は、大量の並列化可能な計算と頻繁なメモリアクセスを組み合わせる。
この作業は最先端のデータフローアクセラレータを拡張して、HBM(High-Bandwidth Memory)とオンチップストレージの両方を活用する。
最高の先行研究と比較して、ResNet-18、ResNet-50、VGG-16で、少なくとも19.4x、5.1x、10.5xのスピードアップが得られる。
論文 参考訳(メタデータ) (2024-08-17T14:25:32Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - TinyissimoYOLO: A Quantized, Low-Memory Footprint, TinyML Object
Detection Network for Low Power Microcontrollers [1.2846479438896337]
本稿では,TinyissimoYOLOと呼ばれる,高フレキシブル,量子化,メモリ効率,超軽量な物体検出ネットワークを提案する。
畳み込みニューラルネットワークの重みを格納するための0.5MB未満のメモリで、ミリワットの電力領域におけるマイクロコントローラのオブジェクト検出を可能にすることを目的としている。
論文 参考訳(メタデータ) (2023-05-22T12:57:38Z) - SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast,
Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。
いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。
既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文 参考訳(メタデータ) (2023-02-14T13:35:15Z) - GhostNetV2: Enhance Cheap Operation with Long-Range Attention [59.65543143580889]
ハードウェアフレンドリーなアテンション機構(DFCアテンション)を提案し,モバイルアプリケーション用の新しいGhostNetV2アーキテクチャを提案する。
提案したDFCアテンションは、ハードウェア上で高速に動作できるだけでなく、長距離画素間の依存を捉えることができる完全接続層に基づいて構築されている。
さらに,従来のGhostNetのボトルネックを再考し,DFCに着目した安価な操作による機能拡張を提案する。
論文 参考訳(メタデータ) (2022-11-23T12:16:59Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - AdderNet and its Minimalist Hardware Design for Energy-Efficient
Artificial Intelligence [111.09105910265154]
アドラー畳み込みニューラルネットワーク(AdderNet)を用いた新しいミニマリストハードウェアアーキテクチャを提案する。
AdderNet全体の16%の高速化を実現している。
我々は、AdderNetが他の競争相手を追い越せると結論付けている。
論文 参考訳(メタデータ) (2021-01-25T11:31:52Z) - GnetSeg: Semantic Segmentation Model Optimized on a 224mW CNN
Accelerator Chip at the Speed of 318FPS [7.78162383358657]
本稿では,CNNアクセラレータとホストCPU間のデータ転送の遅延を最小限に抑えるGnetSegモデルのマスクに対する整数符号化を提案する。
実験により、224mwチップで動くモデルは318fpsの速度を達成し、パーソンセグメンテーションなどの用途に優れた精度を示す。
論文 参考訳(メタデータ) (2021-01-09T23:11:48Z) - Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors [99.94079901071163]
本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。
我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
論文 参考訳(メタデータ) (2020-11-18T17:55:07Z) - ZynqNet: An FPGA-Accelerated Embedded Convolutional Neural Network [0.0]
この論文はFPGAベースのCNNアクセラレーションの可能性を探るものである。
Zynq System-on-Chip上でのCNN実装の完全機能を示す。
論文 参考訳(メタデータ) (2020-05-14T11:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。