論文の概要: BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2206.10092v1
- Date: Tue, 21 Jun 2022 03:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 16:54:37.748048
- Title: BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object
Detection
- Title(参考訳): BEVDepth:多視点3次元物体検出のための信頼度取得
- Authors: Yinhao Li, Zheng Ge, Guanyi Yu, Jinrong Yang, Zengran Wang, Yukang
Shi, Jianjian Sun, Zeming Li
- Abstract要約: 我々は,カメラを用いたBird-Eye-View 3Dオブジェクト検出のための,BEVDepthと呼ばれる信頼性の高い深度推定が可能な新しい3Dオブジェクト検出器を提案する。
BEVDepthは、挑戦的なnuScenesテストセット上で、最先端の60.0% NDSを達成する。
- 参考スコア(独自算出の注目度): 13.319949358652192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this research, we propose a new 3D object detector with a trustworthy
depth estimation, dubbed BEVDepth, for camera-based Bird's-Eye-View (BEV) 3D
object detection. By a thorough analysis of recent approaches, we discover that
the depth estimation is implicitly learned without camera information, making
it the de-facto fake-depth for creating the following pseudo point cloud.
BEVDepth gets explicit depth supervision utilizing encoded intrinsic and
extrinsic parameters. A depth correction sub-network is further introduced to
counteract projecting-induced disturbances in depth ground truth. To reduce the
speed bottleneck while projecting features from image-view into BEV using
estimated depth, a quick view-transform operation is also proposed. Besides,
our BEVDepth can be easily extended with input from multi-frame. Without any
bells and whistles, BEVDepth achieves the new state-of-the-art 60.0% NDS on the
challenging nuScenes test set while maintaining high efficiency. For the first
time, the performance gap between the camera and LiDAR is largely reduced
within 10% NDS.
- Abstract(参考訳): 本研究では,カメラを用いた3次元物体検出のために,bevdepthと呼ばれる信頼性の高い深さ推定を行う3次元物体検出器を提案する。
近年のアプローチを徹底的に分析した結果,カメラ情報なしで奥行き推定が暗黙的に学習されることが判明した。
BEVDepthは、エンコードされた内在的パラメータと外在的パラメータを利用した明示的な深度管理を行う。
さらに、深度補正サブネットワークを導入し、深度地盤真理における投射誘起障害に対処する。
推定深度を用いて画像ビューからBEVに投影しながら速度ボトルネックを低減するため,高速なビュー変換操作も提案した。
さらに、BEVDepthはマルチフレームからの入力で簡単に拡張できます。
ベルやホイッスルがなければ、bevdepthは高い効率を維持しながら、挑戦的なヌッセンテストセットで新しい最先端のndsを60.0%達成する。
初めて、カメラとLiDARのパフォーマンスギャップは10% NDSで大幅に減少する。
関連論文リスト
- SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection [15.551625571158056]
高精度な3次元物体検出のためのLiDARカメラ融合フレームワークSimpleBEVを提案する。
提案手法は, nuScenesデータセット上で77.6%のNDS精度を実現し, 3次元物体検出トラックにおける優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-08T02:51:39Z) - OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - Toward Accurate Camera-based 3D Object Detection via Cascade Depth
Estimation and Calibration [20.82054596017465]
最近の3次元物体検出は、画像から3次元特徴空間への変換の精度によって制限されている。
本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:21:26Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object
Detection [17.526914782562528]
複数の画像ビューから3Dオブジェクトを検出することは、視覚的なシーン理解にとって難しい課題である。
マルチビュー3Dオブジェクト検出のためのクロスモーダルなBEV知識蒸留フレームワークである textbfBEVDistill を提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で59.4 NDSを達成し、様々な画像ベース検出器と比較して新しい最先端技術を達成する。
論文 参考訳(メタデータ) (2022-11-17T07:26:14Z) - Boosting Monocular 3D Object Detection with Object-Centric Auxiliary
Depth Supervision [13.593246617391266]
本稿では,RGB画像に基づく3D検出器を,深度推定タスクに類似した深度予測損失で共同でトレーニングすることにより,RGB画像に基づく3D検出器の強化手法を提案する。
新たな物体中心深度予測損失は,3次元物体検出において重要な前景物体周辺の深度に焦点をあてる。
我々の深度回帰モデルは、物体の3次元信頼度を表すために、深度の不確かさを予測するためにさらに訓練される。
論文 参考訳(メタデータ) (2022-10-29T11:32:28Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Self-Attention Dense Depth Estimation Network for Unrectified Video
Sequences [6.821598757786515]
LiDARとレーダーセンサーはリアルタイム深度推定のためのハードウェアソリューションである。
深層学習に基づく自己教師付き深度推定法は有望な結果を示した。
未修正画像に対する自己注意に基づく深度・自我移動ネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-28T21:53:53Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual
Odometry [57.5549733585324]
D3VOは、深度、ポーズ、不確実性推定という3つのレベルでディープネットワークを利用する、単眼の視覚計測のための新しいフレームワークである。
まず,ステレオビデオを用いた自己監督型単眼深度推定ネットワークを提案する。
入力画像上の画素の光度不確かさをモデル化し、深度推定精度を向上させる。
論文 参考訳(メタデータ) (2020-03-02T17:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。