論文の概要: CAPE: Camera View Position Embedding for Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2303.10209v1
- Date: Fri, 17 Mar 2023 18:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 20:41:17.325367
- Title: CAPE: Camera View Position Embedding for Multi-View 3D Object Detection
- Title(参考訳): CAPE:多視点3Dオブジェクト検出のためのカメラビュー位置埋め込み
- Authors: Kaixin Xiong, Shi Gong, Xiaoqing Ye, Xiao Tan, Ji Wan, Errui Ding,
Jingdong Wang, Xiang Bai
- Abstract要約: 現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
- 参考スコア(独自算出の注目度): 100.02565745233247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of detecting 3D objects from multi-view
images. Current query-based methods rely on global 3D position embeddings (PE)
to learn the geometric correspondence between images and 3D space. We claim
that directly interacting 2D image features with global 3D PE could increase
the difficulty of learning view transformation due to the variation of camera
extrinsics. Thus we propose a novel method based on CAmera view Position
Embedding, called CAPE. We form the 3D position embeddings under the local
camera-view coordinate system instead of the global coordinate system, such
that 3D position embedding is free of encoding camera extrinsic parameters.
Furthermore, we extend our CAPE to temporal modeling by exploiting the object
queries of previous frames and encoding the ego-motion for boosting 3D object
detection. CAPE achieves state-of-the-art performance (61.0% NDS and 52.5% mAP)
among all LiDAR-free methods on nuScenes dataset. Codes and models are
available on \href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} and
\href{https://github.com/kaixinbear/CAPE}{PyTorch Implementation}.
- Abstract(参考訳): 本稿では,マルチビュー画像から3次元物体を検出する問題に対処する。
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込み(PE)に依存している。
グローバルな3D PEと直接相互作用する2D画像は、カメラ外在物の変化による学習の難しさを増大させる可能性がある。
そこで我々はCAPEと呼ばれるCAmera View Position Embeddingに基づく新しい手法を提案する。
本研究では,グローバル座標系の代わりに局所的なカメラビュー座標系の下で3次元位置埋め込みを構築し,カメラの外部パラメータを符号化することができないようにした。
さらに,前フレームのオブジェクトクエリを活用し,ego-motionをエンコードして3次元オブジェクト検出を促進させることにより,ケープを時間モデルに拡張する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
コードとモデルは \href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} と \href{https://github.com/kaixinbear/CAPE}{PyTorch implementation} で利用可能である。
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - Mitigating Perspective Distortion-induced Shape Ambiguity in Image Crops [17.074716363691294]
単一の画像から3Dを予測するためのモデルは、しばしば関心の対象の周りの作物と連動し、カメラの視野内の物体の位置を無視する。
内在性を考慮した位置推定法を提案する。
ベンチマーク(KPE)は、画像とカメラの形状における作物の位置に関する情報を組み込んだベンチマークである。
NYUの深度予測、KITTIとnuScenesの3Dオブジェクト検出、ARCTICの3Dオブジェクトの予測という3つの人気のある3D画像ベンチマークの実験は、KPEの利点を示している。
論文 参考訳(メタデータ) (2023-12-11T18:28:55Z) - EP2P-Loc: End-to-End 3D Point to 2D Pixel Localization for Large-Scale
Visual Localization [44.05930316729542]
本稿では,3次元点雲の大規模可視化手法EP2P-Locを提案する。
画像中の見えない3D点を除去する簡単なアルゴリズムを提案する。
このタスクで初めて、エンドツーエンドのトレーニングに差別化可能なツールを使用します。
論文 参考訳(メタデータ) (2023-09-14T07:06:36Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。