論文の概要: PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices
- arxiv url: http://arxiv.org/abs/2111.00902v1
- Date: Mon, 1 Nov 2021 12:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 15:32:56.749310
- Title: PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices
- Title(参考訳): PP-PicoDet: モバイルデバイスのリアルタイムオブジェクト検出器
- Authors: Guanghua Yu, Qinyao Chang, Wenyu Lv, Chang Xu, Cheng Cui, Wei Ji,
Qingqing Dang, Kaipeng Deng, Guanzhong Wang, Yuning Du, Baohua Lai, Qiwen
Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma
- Abstract要約: 実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。
モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
- 参考スコア(独自算出の注目度): 13.62426382827205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The better accuracy and efficiency trade-off has been a challenging problem
in object detection. In this work, we are dedicated to studying key
optimizations and neural network architecture choices for object detection to
improve accuracy and efficiency. We investigate the applicability of the
anchor-free strategy on lightweight object detection models. We enhance the
backbone structure and design the lightweight structure of the neck, which
improves the feature extraction ability of the network. We improve label
assignment strategy and loss function to make training more stable and
efficient. Through these optimizations, we create a new family of real-time
object detectors, named PP-PicoDet, which achieves superior performance on
object detection for mobile devices. Our models achieve better trade-offs
between accuracy and latency compared to other popular models. PicoDet-S with
only 0.99M parameters achieves 30.6% mAP, which is an absolute 4.8% improvement
in mAP while reducing mobile CPU inference latency by 55% compared to
YOLOX-Nano, and is an absolute 7.1% improvement in mAP compared to NanoDet. It
reaches 123 FPS (150 FPS using Paddle Lite) on mobile ARM CPU when the input
size is 320. PicoDet-L with only 3.3M parameters achieves 40.9% mAP, which is
an absolute 3.7% improvement in mAP and 44% faster than YOLOv5s. As shown in
Figure 1, our models far outperform the state-of-the-art results for
lightweight object detection. Code and pre-trained models are available at
https://github.com/PaddlePaddle/PaddleDetection.
- Abstract(参考訳): 精度と効率のトレードオフは、オブジェクト検出において難しい問題である。
本稿では,オブジェクト検出のための重要な最適化とニューラルネットワークアーキテクチャの選択を研究し,精度と効率を向上させることを目的とする。
軽量物体検出モデルにおけるアンカーフリー戦略の適用性について検討する。
我々は,バックボーン構造を強化し,首の軽量構造を設計し,ネットワークの特徴抽出能力を向上させる。
ラベル割り当て戦略と損失関数を改善し,トレーニングをより安定かつ効率的にする。
これらの最適化により, PP-PicoDetと呼ばれる, モバイル機器の物体検出性能に優れたリアルタイム物体検出ファミリを新たに構築する。
我々のモデルは、他の一般的なモデルと比べて精度とレイテンシのトレードオフが良くなります。
わずか0.99MパラメータのPicoDet-Sは30.6%のmAPを実現しており、これはmAPの絶対4.8%の改善であり、YOLOX-Nanoと比較してモバイルCPUの推論遅延を55%削減している。
入力サイズが320のとき、モバイルARM CPU上で123 FPS(Paddle Liteを使用した150 FPS)に達する。
わずか3.3MパラメータのPicoDet-Lは40.9%のmAPを達成するが、これは絶対3.7%の改善であり、YOLOv5sよりも44%高速である。
図1に示すように、私たちのモデルは軽量オブジェクト検出の最先端の結果をはるかに上回っています。
コードと事前学習されたモデルはhttps://github.com/paddlepaddle/paddledetectionで入手できる。
関連論文リスト
- LeYOLO, New Scalable and Efficient CNN Architecture for Object Detection [0.0]
FLOPに基づく効率的な物体検出のためのニューラルネットワークアーキテクチャの設計選択に着目する。
そこで本研究では,YOLOモデルの有効性を高めるために,いくつかの最適化手法を提案する。
本稿では、オブジェクト検出のための新しいスケーリングパラダイムと、LeYOLOと呼ばれるYOLO中心のモデルに寄与する。
論文 参考訳(メタデータ) (2024-06-20T12:08:24Z) - YOLO-TLA: An Efficient and Lightweight Small Object Detection Model based on YOLOv5 [19.388112026410045]
YOLO-TLAは、YOLOv5上に構築された高度な物体検出モデルである。
まず、ネックネットワークピラミッドアーキテクチャにおいて、小さなオブジェクトに対する検出層を新たに導入する。
このモジュールはスライディングウィンドウの特徴抽出を使い、計算要求とパラメータ数の両方を効果的に最小化する。
論文 参考訳(メタデータ) (2024-02-22T05:55:17Z) - Learned Two-Plane Perspective Prior based Image Resampling for Efficient
Object Detection [20.886999159134138]
リアルタイムの効率的な認識は、自律的なナビゲーションと都市規模のセンシングに不可欠である。
本研究では,3次元シーンの粗い形状を取り入れた学習可能な幾何学誘導先行手法を提案する。
提案手法は,4.1 $AP_S$ または +39% で検出率を向上し,また,4.3 $sAP_S$ または +63% で検出性能を向上する。
論文 参考訳(メタデータ) (2023-03-25T00:43:44Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - Fewer is More: Efficient Object Detection in Large Aerial Images [59.683235514193505]
本稿では,検出者がより少ないパッチに注目するのに対して,より効率的な推論とより正確な結果を得るのに役立つObjectness Activation Network(OAN)を提案する。
OANを用いて、5つの検出器は3つの大規模な空中画像データセットで30.0%以上のスピードアップを取得する。
我々はOANをドライブシーン物体検出と4Kビデオ物体検出に拡張し,検出速度をそれぞれ112.1%,75.0%向上させた。
論文 参考訳(メタデータ) (2022-12-26T12:49:47Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - EAutoDet: Efficient Architecture Search for Object Detection [110.99532343155073]
EAutoDetフレームワークは、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを検出できる。
本稿では,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。
特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSで40.1 mAP、49.2 mAP、41.3 FPSをCOCOテストデブセットで達成している。
論文 参考訳(メタデータ) (2022-03-21T05:56:12Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z) - Small Object Detection Based on Modified FSSD and Model Compression [7.387639662781843]
本稿では,FSSDに基づく小型物体検出アルゴリズムを提案する。
計算コストと記憶空間を削減するため, モデル圧縮を実現するためにプルーニングを行う。
アルゴリズムの平均精度(mAP)は、PASCAL VOCで80.4%、GTX1080tiで59.5 FPSに達する。
論文 参考訳(メタデータ) (2021-08-24T03:20:32Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。