論文の概要: PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
- arxiv url: http://arxiv.org/abs/2206.01256v1
- Date: Thu, 2 Jun 2022 19:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 13:58:54.024348
- Title: PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
- Title(参考訳): PETRv2:マルチカメラ画像からの3D知覚のための統一フレームワーク
- Authors: Yingfei Liu, Junjie Yan, Fan Jia, Shuailin Li, Qi Gao, Tiancai Wang,
Xiangyu Zhang, Jian Sun
- Abstract要約: PETRv2は、多視点画像からの3D知覚のための統一されたフレームワークである。
PETRの3次元位置埋め込みを時間的モデリングのために拡張する。
PETRv2は3Dオブジェクト検出とBEVセグメンテーションの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 105.29493158036105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose PETRv2, a unified framework for 3D perception from
multi-view images. Based on PETR, PETRv2 explores the effectiveness of temporal
modeling, which utilizes the temporal information of previous frames to boost
3D object detection. More specifically, we extend the 3D position embedding (3D
PE) in PETR for temporal modeling. The 3D PE achieves the temporal alignment on
object position of different frames. A feature-guided position encoder is
further introduced to improve the data adaptability of 3D PE. To support for
high-quality BEV segmentation, PETRv2 provides a simply yet effective solution
by adding a set of segmentation queries. Each segmentation query is responsible
for segmenting one specific patch of BEV map. PETRv2 achieves state-of-the-art
performance on 3D object detection and BEV segmentation. Detailed robustness
analysis is also conducted on PETR framework. We hope PETRv2 can serve as a
unified framework for 3D perception.
- Abstract(参考訳): 本稿では,マルチビュー画像からの3次元知覚のための統合フレームワーク petrv2 を提案する。
PETRをベースとしたPETRv2では,従来のフレームの時間的情報を用いて3次元物体検出を促進する時間的モデリングの有効性について検討している。
具体的には,PETRの3次元位置埋め込み(3次元PE)を時間的モデリングのために拡張する。
3次元PEは、異なるフレームのオブジェクト位置の時間的アライメントを達成する。
さらに、3次元PEのデータ適応性を向上させるために、特徴誘導位置エンコーダを導入する。
PETRv2は、高品質なBEVセグメンテーションをサポートするため、セグメンテーションクエリセットを追加することで、シンプルだが効果的なソリューションを提供する。
各セグメンテーションクエリは、BEVマップの特定のパッチをセグメンテーションする責任がある。
PETRv2は3Dオブジェクト検出とBEVセグメンテーションの最先端性能を実現する。
PETRフレームワーク上で詳細なロバスト性解析を行う。
PETRv2が3D知覚の統一フレームワークとして機能することを願っている。
関連論文リスト
- HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras [45.739224968302565]
本稿では,マルチタスク3次元知覚のためのHENetというエンドツーエンドフレームワークを提案する。
具体的には,短期フレーム用大画像エンコーダと長期フレーム用小画像エンコーダを用いたハイブリッド画像エンコーダを提案する。
各認識タスクの特徴により、異なるグリッドサイズのBEV機能、独立したBEVエンコーダ、タスクデコーダを異なるタスクに活用する。
論文 参考訳(メタデータ) (2024-04-03T07:10:18Z) - 3DFusion, A real-time 3D object reconstruction pipeline based on
streamed instance segmented data [0.552480439325792]
本稿では,RGB-D画像を利用したリアルタイムセグメンテーション・再構築システムを提案する。
システムはRGB-Dデータに対して画素レベルのセグメンテーションを行い、背景オブジェクトを効果的に分離する。
リアルタイム3Dモデリングは、拡張現実、仮想現実、インテリアデザイン、都市計画、道路支援、セキュリティシステムなど、さまざまな分野に適用することができる。
論文 参考訳(メタデータ) (2023-11-11T20:11:58Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object
Detection [11.13693561702228]
支配的なマルチカメラ3D検出パラダイムは、明示的な3D特徴構造に基づいている。
他の方法では、画像トークンと3Dオブジェクトの関係を構築するために幾何学的位置符号化が暗黙的に導入されている。
本稿では,インスタンス誘導型監視モジュールと空間アライメントモジュールを備えたFocal-PETRを提案する。
論文 参考訳(メタデータ) (2022-12-11T13:38:54Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - PETR: Position Embedding Transformation for Multi-View 3D Object
Detection [80.93664973321168]
PETRは3D座標の位置情報を画像特徴にエンコードし、3D位置認識特徴を生成する。
PETRは標準のnuScenesデータセットで最先端のパフォーマンスを達成し、ベンチマークで1位にランクインする。
論文 参考訳(メタデータ) (2022-03-10T20:33:28Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。