論文の概要: CoDeNet: Efficient Deployment of Input-Adaptive Object Detection on
Embedded FPGAs
- arxiv url: http://arxiv.org/abs/2006.08357v2
- Date: Mon, 25 Jan 2021 22:35:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 04:35:51.325775
- Title: CoDeNet: Efficient Deployment of Input-Adaptive Object Detection on
Embedded FPGAs
- Title(参考訳): CoDeNet: 組み込みFPGA上での入力適応型オブジェクト検出の効率的なデプロイ
- Authors: Zhen Dong, Dequan Wang, Qijing Huang, Yizhao Gao, Yaohui Cai, Tian Li,
Bichen Wu, Kurt Keutzer, John Wawrzynek
- Abstract要約: FPGAの柔軟性を利用して、変形可能な畳み込みを伴う新しいオブジェクト検出パイプラインを開発する。
高効率実装では、ソリューションは毎秒26.9フレームに達し、小さなモデルサイズは0.76MBである。
我々のモデルはPascal VOCで67.1 AP50に達し、パラメータは20.9倍小さいがTiny-YOLOより10%正確である。
- 参考スコア(独自算出の注目度): 41.43273142203345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying deep learning models on embedded systems has been challenging due
to limited computing resources. The majority of existing work focuses on
accelerating image classification, while other fundamental vision problems,
such as object detection, have not been adequately addressed. Compared with
image classification, detection problems are more sensitive to the spatial
variance of objects, and therefore, require specialized convolutions to
aggregate spatial information. To address this need, recent work introduces
dynamic deformable convolution to augment regular convolutions. However, this
will lead to inefficient memory accesses of inputs with existing hardware. In
this work, we harness the flexibility of FPGAs to develop a novel object
detection pipeline with deformable convolutions. We show the speed-accuracy
tradeoffs for a set of algorithm modifications including irregular-access
versus limited-range and fixed-shape. We then Co-Design a Network CoDeNet with
the modified deformable convolution and quantize it to 4-bit weights and 8-bit
activations. With our high-efficiency implementation, our solution reaches 26.9
frames per second with a tiny model size of 0.76 MB while achieving 61.7 AP50
on the standard object detection dataset, Pascal VOC. With our higher accuracy
implementation, our model gets to 67.1 AP50 on Pascal VOC with only 2.9 MB of
parameters-20.9x smaller but 10% more accurate than Tiny-YOLO.
- Abstract(参考訳): 組み込みシステムにディープラーニングモデルをデプロイすることは、限られたコンピューティングリソースのために難しい。
既存の作業の大部分は画像分類の高速化に重点を置いているが、オブジェクト検出などの他の基本的なビジョン問題は十分に解決されていない。
画像分類と比較すると、検出問題は物体の空間的ばらつきに敏感であり、そのため空間情報を集約するために特別な畳み込みが必要となる。
このニーズに対処するため、最近の研究では、通常の畳み込みを強化するために動的変形可能な畳み込みを導入する。
しかし、これは既存のハードウェアによる入力の非効率なメモリアクセスにつながる。
本研究ではFPGAの柔軟性を活用し、変形可能な畳み込みを伴う新しい物体検出パイプラインを開発する。
不規則アクセスと限定範囲と固定形を含む一連のアルゴリズム修正の速度精度のトレードオフを示す。
次に、変形可能な畳み込みでネットワークCoDeNetを共設計し、4ビット重みと8ビットアクティベーションに量子化する。
当社の高効率実装では,標準オブジェクト検出データセットPascal VOCで61.7 AP50を達成しながら,0.76MBの小さなモデルサイズで毎秒26.9フレームを実現しています。
高精度な実装により、我々のモデルは2.9MBのパラメータしか持たないPascal VOC上で67.1 AP50となるが、Tiny-YOLOより10%精度が高い。
関連論文リスト
- Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - Head-Free Lightweight Semantic Segmentation with Linear Transformer [21.38163906180886]
本稿では,適応周波数変換器(Adaptive Frequency Transformer)というセマンティックセグメンテーションのためのヘッドフリー軽量アーキテクチャを提案する。
並列アーキテクチャを採用して、デコーダを置き換える特定の学習可能なローカル記述としてプロトタイプ表現を活用する。
デコーダの除去は計算の大部分を圧縮するが、並列構造の精度は依然として低い計算資源によって制限されている。
論文 参考訳(メタデータ) (2023-01-11T18:59:46Z) - Optimizing Anchor-based Detectors for Autonomous Driving Scenes [22.946814647030667]
本稿では、自律走行シーンにおける一般的なアンカーベース検出器のモデル改善と推定時間最適化について要約する。
高性能RCNN-RSおよびRetinaNet-RS検出フレームワークに基づいて,群衆シーンの小さな物体をよりよく検出するために,検出器に適応するための一連のフレームワークの改善について検討した。
論文 参考訳(メタデータ) (2022-08-11T22:44:59Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Small Object Detection Based on Modified FSSD and Model Compression [7.387639662781843]
本稿では,FSSDに基づく小型物体検出アルゴリズムを提案する。
計算コストと記憶空間を削減するため, モデル圧縮を実現するためにプルーニングを行う。
アルゴリズムの平均精度(mAP)は、PASCAL VOCで80.4%、GTX1080tiで59.5 FPSに達する。
論文 参考訳(メタデータ) (2021-08-24T03:20:32Z) - Algorithm-hardware Co-design for Deformable Convolution [40.50544352625659]
我々は、変形可能な畳み込みを改良した効率的な物体検出ネットワークを構築し、最先端の量子化手法を用いてネットワークを定量化する。
予備実験では、変形可能な畳み込みに対する設計最適化により、ほとんど精度が損なわれず、高速化が達成できることが示されている。
論文 参考訳(メタデータ) (2020-02-19T01:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。