論文の概要: OA-DET3D: Embedding Object Awareness as a General Plug-in for Multi-Camera 3D Object Detection
- arxiv url: http://arxiv.org/abs/2301.05711v3
- Date: Sat, 30 Aug 2025 03:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 20:08:26.064356
- Title: OA-DET3D: Embedding Object Awareness as a General Plug-in for Multi-Camera 3D Object Detection
- Title(参考訳): OA-DET3D:マルチカメラ3Dオブジェクト検出のための汎用プラグインとしてのオブジェクト認識の埋め込み
- Authors: Xiaomeng Chu, Jiajun Deng, Jianmin Ji, Yu Zhang, Houqiang Li, Yanyong Zhang,
- Abstract要約: 我々は3Dオブジェクト検出を改善するプラグインモジュールであるOA-DET3Dを紹介する。
OA-DET3Dは、オブジェクト中心の深度情報と前景の擬似点を活用することにより、オブジェクトの表現を高める。
我々は、OA-DET3Dの有効性を検証するために、nuScenesデータセットとArgoverse 2データセットについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 77.43427778037203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advance in multi-camera 3D object detection is featured by bird's-eye view (BEV) representation or object queries. However, the ill-posed transformation from image-plane view to 3D space inevitably causes feature clutter and distortion, making the objects blur into the background. To this end, we explore how to incorporate supplementary cues for differentiating objects in the transformed feature representation. Formally, we introduce OA-DET3D, a general plug-in module that improves 3D object detection by bringing object awareness into a variety of existing 3D object detection pipelines. Specifically, OA-DET3D boosts the representation of objects by leveraging object-centric depth information and foreground pseudo points. First, we use object-level supervision from the properties of each 3D bounding box to guide the network in learning the depth distribution. Next, we select foreground pixels using a 2D object detector and project them into 3D space for pseudo-voxel feature encoding. Finally, the object-aware depth features and pseudo-voxel features are incorporated into the BEV representation or query feature from the baseline model with a deformable attention mechanism. We conduct extensive experiments on the nuScenes dataset and Argoverse 2 dataset to validate the merits of OA-DET3D. Our method achieves consistent improvements over the BEV-based baselines in terms of both average precision and comprehensive detection score.
- Abstract(参考訳): 近年のマルチカメラ3Dオブジェクト検出の進歩は、鳥眼ビュー(BEV)表現やオブジェクトクエリによって特徴付けられる。
しかし、画像平面ビューから3次元空間への不測の変換は、必然的に特徴のぼやけや歪みを引き起こし、物体が背景にぼやけてしまう。
この目的のために、変換された特徴表現にオブジェクトを識別するための補足的手がかりを組み込む方法について検討する。
OA-DET3D(OA-DET3D)は,既存の3Dオブジェクト検出パイプラインにオブジェクト認識を組み込むことにより,3Dオブジェクト検出を改善する汎用プラグインモジュールである。
具体的には、OA-DET3Dは、オブジェクト中心の深度情報と前景の擬似点を活用することにより、オブジェクトの表現を高める。
まず,各3次元境界ボックスの特性からオブジェクトレベルの監視を行い,深度分布の学習においてネットワークを誘導する。
次に,2次元物体検出器を用いて前景画素を選択し,擬似ボクセル特徴符号化のために3次元空間に投影する。
最後に、変形可能な注意機構を備えたベースラインモデルから、オブジェクト認識深度特徴と擬似ボクセル特徴を、BEV表現またはクエリ特徴に組み込む。
我々は、OA-DET3Dの有効性を検証するために、nuScenesデータセットとArgoverse 2データセットについて広範な実験を行った。
本手法は,BEVベースラインに対する平均精度と総合的検出スコアの両面で一貫した改善を実現する。
関連論文リスト
- Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - ROA-BEV: 2D Region-Oriented Attention for BEV-based 3D Object [14.219472370221029]
BEVに基づく3Dオブジェクト検出ネットワーク(ROA-BEV)のための2次元領域指向アテンションを提案する。
本手法は,マルチスケール構造を用いてROAの情報量を増加させる。
nuScenesの実験では、ROA-BEVはBEVDetとBEVDepthに基づいて性能を改善している。
論文 参考訳(メタデータ) (2024-10-14T08:51:56Z) - GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection [36.245654685143016]
Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして登場した。
既存の方法では、BEV表現の幾何学的品質を見落とし、低分解能状態に置かれている。
論文 参考訳(メタデータ) (2024-09-03T11:57:36Z) - OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Versatile Multi-View Framework for LiDAR-based 3D Object Detection
with Guidance from Panoptic Segmentation [9.513467995188634]
LiDARデータを用いた3Dオブジェクト検出は、自律運転システムにとって必須のコンポーネントである。
本稿では,3次元物体検出とパノプティックセグメンテーションを共同で行う新しいマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-04T04:57:05Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。