論文の概要: PETR: Position Embedding Transformation for Multi-View 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2203.05625v1
- Date: Thu, 10 Mar 2022 20:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:12:08.698332
- Title: PETR: Position Embedding Transformation for Multi-View 3D Object
Detection
- Title(参考訳): PETR:多視点3次元物体検出のための位置埋め込み変換
- Authors: Yingfei Liu, Tiancai Wang, Xiangyu Zhang, Jian Sun
- Abstract要約: PETRは3D座標の位置情報を画像特徴にエンコードし、3D位置認識特徴を生成する。
PETRは標準のnuScenesデータセットで最先端のパフォーマンスを達成し、ベンチマークで1位にランクインする。
- 参考スコア(独自算出の注目度): 80.93664973321168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we develop position embedding transformation (PETR) for
multi-view 3D object detection. PETR encodes the position information of 3D
coordinates into image features, producing the 3D position-aware features.
Object query can perceive the 3D position-aware features and perform end-to-end
object detection. PETR achieves state-of-the-art performance (50.4% NDS and
44.1% mAP) on standard nuScenes dataset and ranks 1st place on the benchmark.
It can serve as a simple yet strong baseline for future research.
- Abstract(参考訳): 本稿では,多視点3次元物体検出のための位置埋め込み変換(PETR)を開発する。
PETRは3D座標の位置情報を画像特徴にエンコードし、3D位置認識特徴を生成する。
オブジェクトクエリは、3D位置認識機能を認識し、エンドツーエンドのオブジェクト検出を実行する。
PETRは標準的なnuScenesデータセット上で最先端のパフォーマンス(50.4% NDSと44.1% mAP)を達成し、ベンチマークで1位にランクインした。
将来の研究のベースラインとしてシンプルで強力な役割を果たすことができる。
関連論文リスト
- OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - Pixel-Aligned Recurrent Queries for Multi-View 3D Object Detection [16.677107631803327]
PARQはマルチビューの3Dオブジェクト検出器で、トランスフォーマーとピクセルアラインなリカレントクエリを備えている。
再トレーニングせずに追加のインプットビューを利用することができ、反復回数を変更することで推論計算を適用することができる。
論文 参考訳(メタデータ) (2023-10-02T17:58:51Z) - Transformer-based stereo-aware 3D object detection from binocular images [82.85433941479216]
両眼3次元物体検出におけるトランスフォーマーのモデル設計について検討する。
この目的を達成するために、ステレオ対応の3Dオブジェクト検出器TS3Dを提案する。
提案したTS3Dは、KITTIテストセット上で41.29%のモードレートカー検出精度を実現し、各両眼画像対から物体を検出するのに88msを要した。
論文 参考訳(メタデータ) (2023-04-24T08:29:45Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - 3DPPE: 3D Point Positional Encoding for Multi-Camera 3D Object Detection
Transformers [35.14784758217257]
本稿では,3D検出トランスフォーマーデコーダに3Dポイント位置符号化,3DPPEを導入する。
近似にもかかわらず、3DPPEは競合するnuScenesデータセット上で46.0 mAPと51.4 NDSを達成した。
論文 参考訳(メタデータ) (2022-11-27T03:36:32Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images [105.29493158036105]
PETRv2は、多視点画像からの3D知覚のための統一されたフレームワークである。
PETRの3次元位置埋め込みを時間的モデリングのために拡張する。
PETRv2は3Dオブジェクト検出とBEVセグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-02T19:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。