論文の概要: RayFormer: Improving Query-Based Multi-Camera 3D Object Detection via Ray-Centric Strategies
- arxiv url: http://arxiv.org/abs/2407.14923v4
- Date: Tue, 19 Nov 2024 08:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:48.253292
- Title: RayFormer: Improving Query-Based Multi-Camera 3D Object Detection via Ray-Centric Strategies
- Title(参考訳): RayFormer:Ray-Centric Strategiesによるクエリベースのマルチカメラ3Dオブジェクト検出の改善
- Authors: Xiaomeng Chu, Jiajun Deng, Guoliang You, Yifan Duan, Yao Li, Yanyong Zhang,
- Abstract要約: RayFormerはカメラにインスパイアされたクエリーベースの3Dオブジェクト検出器である。
画像と鳥の視線の両方に特徴サンプリング点の分布を整理するレイサンプリング法を提案する。
提案されたRayFormerは、それぞれ55.5% mAPと63.3% NDSの優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 22.044943663881448
- License:
- Abstract: The recent advances in query-based multi-camera 3D object detection are featured by initializing object queries in the 3D space, and then sampling features from perspective-view images to perform multi-round query refinement. In such a framework, query points near the same camera ray are likely to sample similar features from very close pixels, resulting in ambiguous query features and degraded detection accuracy. To this end, we introduce RayFormer, a camera-ray-inspired query-based 3D object detector that aligns the initialization and feature extraction of object queries with the optical characteristics of cameras. Specifically, RayFormer transforms perspective-view image features into bird's eye view (BEV) via the lift-splat-shoot method and segments the BEV map to sectors based on the camera rays. Object queries are uniformly and sparsely initialized along each camera ray, facilitating the projection of different queries onto different areas in the image to extract distinct features. Besides, we leverage the instance information of images to supplement the uniformly initialized object queries by further involving additional queries along the ray from 2D object detection boxes. To extract unique object-level features that cater to distinct queries, we design a ray sampling method that suitably organizes the distribution of feature sampling points on both images and bird's eye view. Extensive experiments are conducted on the nuScenes dataset to validate our proposed ray-inspired model design. The proposed RayFormer achieves superior performance of 55.5% mAP and 63.3% NDS, respectively.
- Abstract(参考訳): 近年のクエリベースのマルチカメラ3Dオブジェクト検出の進歩は,オブジェクトクエリを3次元空間で初期化し,視点画像から特徴を抽出してマルチラウンドクエリ精細化を行うことによって特徴付けられる。
このようなフレームワークでは、同じカメラ線に近いクエリポイントは、非常に近いピクセルから同様の特徴をサンプリングし、あいまいなクエリ特徴と劣化検出精度をもたらす。
この目的のために、カメラにインスパイアされたクエリに基づく3Dオブジェクト検出器であるRayFormerを導入し、カメラの光学特性とオブジェクトクエリの初期化と特徴抽出を一致させる。
具体的には、RayFormerは、視線画像の特徴をリフトスプラット撮影法により鳥の目視(BEV)に変換し、カメラ線に基づいてBEVマップをセクターに分割する。
オブジェクトクエリは、各カメラ線に沿って、均一かつ疎結合に初期化され、画像内の異なる領域への異なるクエリの投影を容易にし、異なる特徴を抽出する。
さらに、画像のインスタンス情報を利用して、一様に初期化されたオブジェクトクエリを補う。
異なるクエリに適合するユニークなオブジェクトレベルの特徴を抽出するために,画像と鳥の視線の両方に特徴サンプリング点の分布を適切に整理するレイサンプリング法を設計する。
提案したレイインスパイアモデル設計を検証するため, nuScenesデータセット上で大規模な実験を行った。
提案されたRayFormerは、それぞれ55.5% mAPと63.3% NDSの優れたパフォーマンスを実現している。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - A Versatile Multi-View Framework for LiDAR-based 3D Object Detection
with Guidance from Panoptic Segmentation [9.513467995188634]
LiDARデータを用いた3Dオブジェクト検出は、自律運転システムにとって必須のコンポーネントである。
本稿では,3次元物体検出とパノプティックセグメンテーションを共同で行う新しいマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-04T04:57:05Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。