論文の概要: Learning High-resolution Vector Representation from Multi-Camera Images for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2407.15354v1
- Date: Mon, 22 Jul 2024 03:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 16:10:42.977169
- Title: Learning High-resolution Vector Representation from Multi-Camera Images for 3D Object Detection
- Title(参考訳): 3次元物体検出のためのマルチカメラ画像からの高分解能ベクトル表現の学習
- Authors: Zhili Chen, Shuangjie Xu, Maosheng Ye, Zian Qian, Xiaoyi Zou, Dit-Yan Yeung, Qifeng Chen,
- Abstract要約: 本稿では,高分解能ベクトル表現を用いたカメラベースの3次元物体検出器VectorFormerを提案する。
提案した高分解能ベクトル表現は、低分解能BEV表現と組み合わせて、ベクトル散乱と集光という2つの新しいモジュールを通して、高分解能のマルチカメラ画像から3次元幾何学を効率的に活用する。
- 参考スコア(独自算出の注目度): 60.11588003015481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Bird's-Eye-View (BEV) representation is a critical factor that directly impacts the 3D object detection performance, but the traditional BEV grid representation induces quadratic computational cost as the spatial resolution grows. To address this limitation, we present a new camera-based 3D object detector with high-resolution vector representation: VectorFormer. The presented high-resolution vector representation is combined with the lower-resolution BEV representation to efficiently exploit 3D geometry from multi-camera images at a high resolution through our two novel modules: vector scattering and gathering. To this end, the learned vector representation with richer scene contexts can serve as the decoding query for final predictions. We conduct extensive experiments on the nuScenes dataset and demonstrate state-of-the-art performance in NDS and inference time. Furthermore, we investigate query-BEV-based methods incorporated with our proposed vector representation and observe a consistent performance improvement.
- Abstract(参考訳): Bird's-Eye-View(BEV)表現は、3Dオブジェクト検出性能に直接影響を与える重要な要素であるが、従来のBEVグリッド表現は空間解像度が大きくなるにつれて2次計算コストを誘導する。
この制限に対処するため、高分解能ベクトル表現を持つカメラベースの新しい3Dオブジェクト検出器VectorFormerを提案する。
提案した高分解能ベクトル表現は、低分解能BEV表現と組み合わせて、ベクトル散乱と集光という2つの新しいモジュールを通して、高分解能のマルチカメラ画像から3次元幾何学を効率的に活用する。
この目的のために、よりリッチなシーンコンテキストを持つ学習されたベクトル表現は、最終的な予測のためのデコードクエリとして機能することができる。
我々はnuScenesデータセットの広範な実験を行い、NDSおよび推論時間における最先端性能を実証する。
さらに,提案したベクトル表現を組み込んだクエリBEVベースの手法について検討し,一貫した性能向上を観察する。
関連論文リスト
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)による新しい3次元物体検出法を提案する。
EVTは、アダプティブサンプリングとアダプティブプロジェクション(ASAP)を使用して、3Dサンプリングポイントとアダプティブカーネルを生成する。
トランスデコーダ内で得られたマルチモーダルBEV機能を効果的に活用するように設計されている。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection [36.245654685143016]
Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして登場した。
既存の方法では、BEV表現の幾何学的品質を見落とし、低分解能状態に置かれている。
論文 参考訳(メタデータ) (2024-09-03T11:57:36Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - RangeRCNN: Towards Fast and Accurate 3D Object Detection with Range
Image Representation [35.6155506566957]
RangeRCNNは、レンジ画像表現に基づく、新しく効果的な3Dオブジェクト検出フレームワークである。
本稿では,拡張残差ブロック(DRB)を用いて,異なる物体スケールを適応させ,よりフレキシブルな受容場を得る。
実験によると、RangeRCNNはKITTIデータセットとOpenデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-01T03:28:13Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z) - Monocular 3D Object Detection with Decoupled Structured Polygon
Estimation and Height-Guided Depth Estimation [41.29145717658494]
本稿では,検出問題を構造化ポリゴン予測タスクと深度回復タスクに分解する新しい統合フレームワークを提案する。
広く使われている3Dバウンディングボックスの提案と比較すると、3D検出のためのより良い表現であることが示されている。
KITTIベンチマークにおいて,本手法が最先端検出精度を実現するための実験を行った。
論文 参考訳(メタデータ) (2020-02-05T03:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。