論文の概要: Real-Time Anchor-Free Single-Stage 3D Detection with IoU-Awareness
- arxiv url: http://arxiv.org/abs/2107.14342v1
- Date: Thu, 29 Jul 2021 21:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 13:03:32.262073
- Title: Real-Time Anchor-Free Single-Stage 3D Detection with IoU-Awareness
- Title(参考訳): IoU認識によるリアルタイムアンカーフリー単段3次元検出
- Authors: Runzhou Ge, Zhuangzhuang Ding, Yihan Hu, Wenxin Shao, Li Huang, Kun
Li, Qiang Liu
- Abstract要約: 実時間3D検出における勝利解について紹介する。
また、CVPR 2021におけるオープンデータセットの課題において、"Most Efficient Model"を提示する。
- 参考スコア(独自算出の注目度): 15.72821609622122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we introduce our winning solution to the Real-time 3D
Detection and also the "Most Efficient Model" in the Waymo Open Dataset
Challenges at CVPR 2021. Extended from our last year's award-winning model
AFDet, we have made a handful of modifications to the base model, to improve
the accuracy and at the same time to greatly reduce the latency. The modified
model, named as AFDetV2, is featured with a lite 3D Feature Extractor, an
improved RPN with extended receptive field and an added sub-head that produces
an IoU-aware confidence score. These model enhancements, together with enriched
data augmentation, stochastic weights averaging, and a GPU-based implementation
of voxelization, lead to a winning accuracy of 73.12 mAPH/L2 for our AFDetV2
with a latency of 60.06 ms, and an accuracy of 72.57 mAPH/L2 for our
AFDetV2-base, entitled as the "Most Efficient Model" by the challenge sponsor,
with a winning latency of 55.86 ms.
- Abstract(参考訳): 本報告では、cvpr 2021におけるwaymo open datasetチャレンジにおいて、リアルタイム3d検出と「最も効率的なモデル」に対する勝利ソリューションを紹介する。
昨年受賞したafdetから拡張して、ベースモデルにいくつかの修正を加え、精度を高め、同時にレイテンシを大幅に削減しました。
AFDetV2と名付けられた改良型モデルには、ライト3D機能エクストラクタ、拡張受信フィールドを備えた改良されたRPN、IoU対応の信頼性スコアを生成するサブヘッドが装備されている。
これらのモデルの強化は、拡張されたデータ拡張、確率的な重み付け、ボクセル化のgpuベースの実装とともに、我々のafdetv2の勝率73.12 maph/l2、60.06 ms、afdetv2-baseの72.57 maph/l2、チャレンジスポンサーによる「最も効率的なモデル」、55.86 msである。
関連論文リスト
- LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models [1.1965844936801797]
3D LiDARデータの生成モデリングは、自律移動ロボットに有望な応用をもたらす新たな課題である。
我々は,多種多様かつ高忠実な3Dシーンポイント雲を生成可能な,LiDARデータのための新しい生成モデルR2DMを提案する。
本手法は拡散確率モデル (DDPM) を用いて構築され, 生成モデルフレームワークにおいて顕著な結果が得られた。
論文 参考訳(メタデータ) (2023-09-17T12:26:57Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - Optimizing Anchor-based Detectors for Autonomous Driving Scenes [22.946814647030667]
本稿では、自律走行シーンにおける一般的なアンカーベース検出器のモデル改善と推定時間最適化について要約する。
高性能RCNN-RSおよびRetinaNet-RS検出フレームワークに基づいて,群衆シーンの小さな物体をよりよく検出するために,検出器に適応するための一連のフレームワークの改善について検討した。
論文 参考訳(メタデータ) (2022-08-11T22:44:59Z) - Rethinking IoU-based Optimization for Single-stage 3D Object Detection [103.83141677242871]
本稿では回転分離型IoU(RDIoU)法を提案する。
我々のRDIoUは、回転変数を独立項として分離することで、回帰パラメータの複雑な相互作用を単純化する。
論文 参考訳(メタデータ) (2022-07-19T15:35:23Z) - YOLOSA: Object detection based on 2D local feature superimposed
self-attention [13.307581544820248]
本稿では,2次元局所特徴重畳自己アテンションと呼ばれる新たな自己アテンションモジュールを提案する。
提案した改良手法を用いて構築した大型・中小モデルでは, 平均49.0% (66.2 FPS), 46.1% (80.6 FPS), 39.1% (100 FPS) の精度が得られた。
論文 参考訳(メタデータ) (2022-06-23T16:49:21Z) - Real-Time and Robust 3D Object Detection Within Road-Side LiDARs Using
Domain Adaptation [2.658812114255374]
本研究は,インフラLiDARを用いた3次元オブジェクト検出の領域適応における課題を解決することを目的としている。
インフラベースLiDARの車両をリアルタイムで検出できるモデルDASE-ProPillarsを設計する。
論文 参考訳(メタデータ) (2022-03-31T22:54:49Z) - Distribution-Aware Single-Stage Models for Multi-Person 3D Pose
Estimation [29.430404703883084]
本稿では,多人数の3Dポーズ推定問題に対処する新しいDASモデルを提案する。
提案するDASモデルでは,3次元カメラ空間における人物位置と人体関節をワンパスで同時に位置決めする。
CMU Panoptic と MuPoTS-3D のベンチマークに関する総合的な実験は、提案したDASモデルの優れた効率を実証している。
論文 参考訳(メタデータ) (2022-03-15T07:30:27Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z) - Improving 3D Object Detection through Progressive Population Based
Augmentation [91.56261177665762]
本稿では3次元オブジェクト検出のためのデータ拡張ポリシーの設計を自動化するための最初の試みを示す。
このアルゴリズムは,探索空間を狭め,過去の反復で発見された最良のパラメータを採用することで,拡張戦略の最適化を学習する。
PPBAは, 拡張のないベースライン3次元検出モデルよりも最大10倍のデータ効率が高く, ラベル付きモデルよりもはるかに少ない精度で3次元検出モデルが競合精度を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-04-02T05:57:02Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。