論文の概要: RTMDet: An Empirical Study of Designing Real-Time Object Detectors
- arxiv url: http://arxiv.org/abs/2212.07784v1
- Date: Wed, 14 Dec 2022 18:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 17:09:34.145936
- Title: RTMDet: An Empirical Study of Designing Real-Time Object Detectors
- Title(参考訳): RTMDet:リアルタイム物体検出器の設計に関する実証的研究
- Authors: Chengqi Lyu, Wenwei Zhang, Haian Huang, Yue Zhou, Yudong Wang, Yanyi
Liu, Shilong Zhang, Kai Chen
- Abstract要約: 我々は、YOLO級数を超え、多くのオブジェクト認識タスクに容易に対応できる効率的なリアルタイム物体検出装置を開発した。
より良いトレーニング技術とともに、得られたオブジェクト検出器はRTMDetと呼ばれ、COCOでは52.8%AP、NVIDIA 3090 GPUでは300以上のFPSを達成している。
実験結果によって、多くの物体認識タスクのための汎用的リアルタイム物体検出器の設計に関する新たな洞察が得られればと願っている。
- 参考スコア(独自算出の注目度): 13.09100888887757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to design an efficient real-time object detector that
exceeds the YOLO series and is easily extensible for many object recognition
tasks such as instance segmentation and rotated object detection. To obtain a
more efficient model architecture, we explore an architecture that has
compatible capacities in the backbone and neck, constructed by a basic building
block that consists of large-kernel depth-wise convolutions. We further
introduce soft labels when calculating matching costs in the dynamic label
assignment to improve accuracy. Together with better training techniques, the
resulting object detector, named RTMDet, achieves 52.8% AP on COCO with 300+
FPS on an NVIDIA 3090 GPU, outperforming the current mainstream industrial
detectors. RTMDet achieves the best parameter-accuracy trade-off with
tiny/small/medium/large/extra-large model sizes for various application
scenarios, and obtains new state-of-the-art performance on real-time instance
segmentation and rotated object detection. We hope the experimental results can
provide new insights into designing versatile real-time object detectors for
many object recognition tasks. Code and models are released at
https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet.
- Abstract(参考訳): 本稿では,yolo系列を越え,インスタンスセグメンテーションや回転物体検出などの多数の物体認識タスクで容易に拡張可能な,効率的なリアルタイム物体検出器を設計することを目的とする。
より効率的なモデルアーキテクチャを実現するために,大カーネル深度の畳み込みからなる基本構造ブロックによって構築された背骨と首に互換性のある容量を持つアーキテクチャを探索する。
さらに、動的ラベル割り当てのマッチングコストを計算する際にソフトラベルを導入することで、精度を向上させる。
RTMDetという名前のオブジェクト検出器は、より良いトレーニング技術とともに、現在の主流の産業用検出器よりも優れた、NVIDIA 3090 GPU上の300以上のFPSでCOCO上の52.8%APを達成した。
RTMDetは、様々なアプリケーションシナリオに対して、小/小/大/大/大/大/大/大モデルサイズで最適なパラメータ精度のトレードオフを実現し、リアルタイムインスタンスセグメンテーションと回転オブジェクト検出のための新しい最先端性能を得る。
実験結果によって、多くの物体認識タスクのための汎用的リアルタイム物体検出器の設計に関する新たな洞察が得られることを願っている。
コードとモデルはhttps://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdetでリリースされる。
関連論文リスト
- What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector [0.0]
本研究は, YOLOv9オブジェクト検出モデルに焦点をあて, アーキテクチャの革新, トレーニング方法論, 性能改善に焦点をあてる。
汎用高効率層集約ネットワークGELANやProgrammable Gradient Information PGIといった重要な進歩は、特徴抽出と勾配流を著しく向上させる。
本稿では, YOLOv9の内部特徴とその実世界の応用性について, リアルタイム物体検出の最先端技術として確立した。
論文 参考訳(メタデータ) (2024-09-12T07:46:58Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - The Impact of Different Backbone Architecture on Autonomous Vehicle
Dataset [120.08736654413637]
バックボーンアーキテクチャによって抽出された特徴の質は、全体的な検出性能に大きな影響を与える可能性がある。
本研究は,KITTI,NuScenes,BDDの3つの自律走行車データセットを評価し,対象検出タスクにおける異なるバックボーンアーキテクチャの性能を比較した。
論文 参考訳(メタデータ) (2023-09-15T17:32:15Z) - PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR
Point Clouds [29.15589024703907]
本稿では,計算資源の割り当ての観点から,局所的な点集合体を再考する。
最も単純な柱ベースのモデルは、精度とレイテンシの両方を考慮して驚くほどよく機能することがわかった。
本研究は,3次元物体検出の高性能化のために,詳細な幾何学的モデリングが不可欠である,という一般的な直観に挑戦する。
論文 参考訳(メタデータ) (2023-05-08T17:59:14Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Analysis of voxel-based 3D object detection methods efficiency for
real-time embedded systems [93.73198973454944]
本稿では, ボクセルをベースとした2つの3次元物体検出手法について述べる。
実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことが確認できた。
この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。
論文 参考訳(メタデータ) (2021-05-21T12:40:59Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。