論文の概要: 3D Point Positional Encoding for Multi-Camera 3D Object Detection
Transformers
- arxiv url: http://arxiv.org/abs/2211.14710v1
- Date: Sun, 27 Nov 2022 03:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:11:58.297337
- Title: 3D Point Positional Encoding for Multi-Camera 3D Object Detection
Transformers
- Title(参考訳): マルチカメラ3次元物体検出変換器の3次元位置符号化
- Authors: Changyong Shu, Fisher Yu and Yifan Liu
- Abstract要約: まず、様々な3次元位置エンコーディングを探索、解析、比較する。
我々は3D点PEを考案し、より精密な位置決めが3D検出に繋がる可能性があるため、その優れた性能を示す。
ビジョンオンリー(DETR)とLiDARベースのメソッドのパフォーマンスギャップが5% mAP と6% NDS で減少するのは,これが初めてです。
- 参考スコア(独自算出の注目度): 23.862857908790566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-camera 3D object detection, a critical component for vision-only
driving systems, has achieved impressive progress. Notably, transformer-based
methods with 2D features augmented by 3D positional encodings (PE) have enjoyed
great success. However, the mechanism and options of 3D PE have not been
thoroughly explored. In this paper, we first explore, analyze and compare
various 3D positional encodings. In particular, we devise 3D point PE and show
its superior performance since more precise positioning may lead to superior 3D
detection. In practice, we utilize monocular depth estimation to obtain the 3D
point positions for multi-camera 3D object detection. The PE with estimated 3D
point locations can bring significant improvements compared to the commonly
used camera-ray PE. Among DETR-based strategies, our method achieves
state-of-the-art 45.6 mAP and 55.1 NDS on the competitive nuScenes valuation
set. It's the first time that the performance gap between the vision-only
(DETR-based) and LiDAR-based methods is reduced within 5\% mAP and 6\% NDS.
- Abstract(参考訳): 視覚のみの駆動システムにとって重要なコンポーネントであるマルチカメラ3Dオブジェクト検出は、目覚ましい進歩を遂げた。
特に,3次元位置エンコーディング(PE)により強化された2次元特徴を持つトランスフォーマーを用いた手法は大きな成功を収めている。
しかし, 3D PEのメカニズムと選択肢は十分に解明されていない。
本稿ではまず,様々な3次元位置エンコーディングを探索し,解析し,比較する。
特に, 3D 点 PE を考案し, より精密な位置決めが 3D 検出に繋がる可能性があり, 優れた性能を示す。
実際には、単眼深度推定を用いて、マルチカメラ3Dオブジェクト検出のための3D点位置を求める。
推定3Dポイント位置のPEは、一般的に使用されるカメラ線PEに比べて大幅に改善される可能性がある。
提案手法は, DETRをベースとした手法の中で, 競合するヌステンス評価セット上で, 最先端の45.6 mAPと55.1 NDSを実現する。
ビジョンオンリー(DETRベース)とLiDARベースのメソッドのパフォーマンスギャップが 5 % mAP と 6 % NDS で減少するのは,これが初めてです。
関連論文リスト
- MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:58:41Z) - PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection [13.60524473223155]
本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。
PointADは、複数の2Dレンダリングに3D異常をレンダリングし、それらを3D空間に投影する。
我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに強化することができる。
論文 参考訳(メタデータ) (2024-10-01T01:40:22Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - PETR: Position Embedding Transformation for Multi-View 3D Object
Detection [80.93664973321168]
PETRは3D座標の位置情報を画像特徴にエンコードし、3D位置認識特徴を生成する。
PETRは標準のnuScenesデータセットで最先端のパフォーマンスを達成し、ベンチマークで1位にランクインする。
論文 参考訳(メタデータ) (2022-03-10T20:33:28Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。