論文の概要: OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection
- arxiv url: http://arxiv.org/abs/2301.05711v1
- Date: Fri, 13 Jan 2023 06:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 19:19:39.592440
- Title: OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection
- Title(参考訳): oa-bev: 多カメラ3d物体検出のためのバードズ・アイ・ビュー表現への物体認識
- Authors: Xiaomeng Chu, Jiajun Deng, Yuan Zhao, Jianmin Ji, Yu Zhang, Houqiang
Li, Yanyong Zhang
- Abstract要約: OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
- 参考スコア(独自算出の注目度): 78.38062015443195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent trend for multi-camera 3D object detection is through the unified
bird's-eye view (BEV) representation. However, directly transforming features
extracted from the image-plane view to BEV inevitably results in feature
distortion, especially around the objects of interest, making the objects blur
into the background. To this end, we propose OA-BEV, a network that can be
plugged into the BEV-based 3D object detection framework to bring out the
objects by incorporating object-aware pseudo-3D features and depth features.
Such features contain information about the object's position and 3D
structures. First, we explicitly guide the network to learn the depth
distribution by object-level supervision from each 3D object's center. Then, we
select the foreground pixels by a 2D object detector and project them into 3D
space for pseudo-voxel feature encoding. Finally, the object-aware depth
features and pseudo-voxel features are incorporated into the BEV representation
with a deformable attention mechanism. We conduct extensive experiments on the
nuScenes dataset to validate the merits of our proposed OA-BEV. Our method
achieves consistent improvements over the BEV-based baselines in terms of both
average precision and nuScenes detection score. Our codes will be published.
- Abstract(参考訳): マルチカメラ3dオブジェクト検出の最近のトレンドは、unified bird's-eye view (bev)表現である。
しかし、画像平面ビューから抽出された特徴を直接BEVに変換すると、特に興味のある物体の周囲に特徴歪みが生じ、背景にぼやけてしまう。
そこで本研究では,BEVベースの3Dオブジェクト検出フレームワークに接続可能なネットワークであるOA-BEVを提案する。
このような特徴には、オブジェクトの位置と3D構造に関する情報が含まれる。
まず,各3次元オブジェクト中心からオブジェクトレベルの監視によって深度分布を学習するために,ネットワークを明示的に指導する。
そして、2Dオブジェクト検出器で前景画素を選択し、3D空間に投影して擬似ボクセル特徴符号化を行う。
最後に、変形可能な注意機構を備えたBEV表現に、オブジェクト認識深度特徴と擬似ボクセル特徴を組み込む。
提案するOA-BEVの有効性を検証するため, nuScenesデータセットの広範な実験を行った。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
私たちのコードは公表されます。
関連論文リスト
- ROA-BEV: 2D Region-Oriented Attention for BEV-based 3D Object [14.219472370221029]
BEVに基づく3Dオブジェクト検出ネットワーク(ROA-BEV)のための2次元領域指向アテンションを提案する。
本手法は,マルチスケール構造を用いてROAの情報量を増加させる。
nuScenesの実験では、ROA-BEVはBEVDetとBEVDepthに基づいて性能を改善している。
論文 参考訳(メタデータ) (2024-10-14T08:51:56Z) - GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection [36.245654685143016]
Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして登場した。
既存の方法では、BEV表現の幾何学的品質を見落とし、低分解能状態に置かれている。
論文 参考訳(メタデータ) (2024-09-03T11:57:36Z) - OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Versatile Multi-View Framework for LiDAR-based 3D Object Detection
with Guidance from Panoptic Segmentation [9.513467995188634]
LiDARデータを用いた3Dオブジェクト検出は、自律運転システムにとって必須のコンポーネントである。
本稿では,3次元物体検出とパノプティックセグメンテーションを共同で行う新しいマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-04T04:57:05Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。