論文の概要: 3DPPE: 3D Point Positional Encoding for Multi-Camera 3D Object Detection
Transformers
- arxiv url: http://arxiv.org/abs/2211.14710v3
- Date: Fri, 28 Jul 2023 02:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 16:28:43.078487
- Title: 3DPPE: 3D Point Positional Encoding for Multi-Camera 3D Object Detection
Transformers
- Title(参考訳): 3DPPE:マルチカメラ3次元物体検出変換器の3次元位置符号化
- Authors: Changyong Shu, JIajun Deng, Fisher Yu and Yifan Liu
- Abstract要約: 本稿では,3D検出トランスフォーマーデコーダに3Dポイント位置符号化,3DPPEを導入する。
近似にもかかわらず、3DPPEは競合するnuScenesデータセット上で46.0 mAPと51.4 NDSを達成した。
- 参考スコア(独自算出の注目度): 35.14784758217257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have swept the benchmarks on 2D and 3D detection on
images. Because tokenization before the attention mechanism drops the spatial
information, positional encoding becomes critical for those methods. Recent
works found that encodings based on samples of the 3D viewing rays can
significantly improve the quality of multi-camera 3D object detection. We
hypothesize that 3D point locations can provide more information than rays.
Therefore, we introduce 3D point positional encoding, 3DPPE, to the 3D
detection Transformer decoder. Although 3D measurements are not available at
the inference time of monocular 3D object detection, 3DPPE uses predicted depth
to approximate the real point positions. Our hybriddepth module combines direct
and categorical depth to estimate the refined depth of each pixel. Despite the
approximation, 3DPPE achieves 46.0 mAP and 51.4 NDS on the competitive nuScenes
dataset, significantly outperforming encodings based on ray samples. We make
the codes available at https://github.com/drilistbox/3DPPE.
- Abstract(参考訳): トランスフォーマーベースの手法は、画像上の2Dおよび3D検出のベンチマークを席巻した。
注意機構の前のトークン化は空間情報を落とすため、それらの手法では位置符号化が重要となる。
近年の研究では、3D画像のサンプルに基づく符号化により、マルチカメラ3Dオブジェクト検出の品質が大幅に向上することが確認されている。
我々は3Dポイントの位置が光線よりも多くの情報を提供できると仮定する。
そこで我々は3D検出トランスフォーマーデコーダに3Dポイント位置符号化3DPPEを導入する。
モノクロ3次元物体検出では3次元計測はできないが、3DPPEは予測深度を用いて実点位置を近似する。
我々のハイブリッド深度モジュールは,各画素の微細化深度を推定するために直接および分類深度を組み合わせた。
近似にもかかわらず、3DPPEは競合するnuScenesデータセット上で46.0 mAPと51.4 NDSを達成した。
コードはhttps://github.com/drilistbox/3DPPEで公開しています。
関連論文リスト
- MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:58:41Z) - PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection [13.60524473223155]
本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。
PointADは、複数の2Dレンダリングに3D異常をレンダリングし、それらを3D空間に投影する。
我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに強化することができる。
論文 参考訳(メタデータ) (2024-10-01T01:40:22Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - PETR: Position Embedding Transformation for Multi-View 3D Object
Detection [80.93664973321168]
PETRは3D座標の位置情報を画像特徴にエンコードし、3D位置認識特徴を生成する。
PETRは標準のnuScenesデータセットで最先端のパフォーマンスを達成し、ベンチマークで1位にランクインする。
論文 参考訳(メタデータ) (2022-03-10T20:33:28Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。