論文の概要: RQR3D: Reparametrizing the regression targets for BEV-based 3D object detection
- arxiv url: http://arxiv.org/abs/2505.17732v1
- Date: Fri, 23 May 2025 10:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.010683
- Title: RQR3D: Reparametrizing the regression targets for BEV-based 3D object detection
- Title(参考訳): RQR3D:BEVによる3次元物体検出のための回帰目標の再パラメータ化
- Authors: Ozsel Kilinc, Cem Tarhan,
- Abstract要約: Bird's-eye view (BEV)ベースの知覚アプローチは、パースペクティブベースのソリューションの優れた代替手段として現れている。
本稿では,3次元回帰目標を定義するために,制限付き四辺形表現を提案する。
RQR3Dは、2つのボックスの隅の間にあるオフセットとともに、指向するボックスをカプセル化する最小の水平境界ボックスを回帰する。
- 参考スコア(独自算出の注目度): 0.4604003661048266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate, fast, and reliable 3D perception is essential for autonomous driving. Recently, bird's-eye view (BEV)-based perception approaches have emerged as superior alternatives to perspective-based solutions, offering enhanced spatial understanding and more natural outputs for planning. Existing BEV-based 3D object detection methods, typically adhering to angle-based representation, directly estimate the size and orientation of rotated bounding boxes. We observe that BEV-based 3D object detection is analogous to aerial oriented object detection, where angle-based methods are recognized for being affected by discontinuities in their loss functions. Drawing inspiration from this domain, we propose Restricted Quadrilateral Representation to define 3D regression targets. RQR3D regresses the smallest horizontal bounding box encapsulating the oriented box, along with the offsets between the corners of these two boxes, thereby transforming the oriented object detection problem into a keypoint regression task. RQR3D is compatible with any 3D object detection approach. We employ RQR3D within an anchor-free single-stage object detection method and introduce an objectness head to address class imbalance problem. Furthermore, we introduce a simplified radar fusion backbone that eliminates the need for voxel grouping and processes the BEV-mapped point cloud with standard 2D convolutions, rather than sparse convolutions. Extensive evaluations on the nuScenes dataset demonstrate that RQR3D achieves state-of-the-art performance in camera-radar 3D object detection, outperforming the previous best method by +4% in NDS and +2.4% in mAP, and significantly reducing the translation and orientation errors, which are crucial for safe autonomous driving. These consistent gains highlight the robustness, precision, and real-world readiness of our approach.
- Abstract(参考訳): 正確な、速く、信頼性の高い3D知覚は、自動運転に不可欠である。
近年、鳥眼ビュー(BEV)に基づく知覚アプローチが、視点に基づくソリューションの優れた代替手段として登場し、空間的理解と計画のためのより自然なアウトプットを提供する。
既存のBEVベースの3Dオブジェクト検出手法は、通常、角度に基づく表現に固執し、回転する有界箱のサイズと向きを直接推定する。
我々は,BEVに基づく3次元物体検出が空中指向物体検出と類似していることを観察した。
この領域からインスピレーションを得て、3次元回帰目標を定義するためにRestricted Quadrilateral Representationを提案する。
RQR3Dは、これらの2つのボックスのコーナー間のオフセットとともに、指向性ボックスをカプセル化した最小の水平境界ボックスを回帰し、指向性オブジェクト検出問題をキーポイント回帰タスクに変換する。
RQR3Dは任意の3Dオブジェクト検出手法と互換性がある。
我々は、アンカーフリーの単一ステージオブジェクト検出手法にRQR3Dを採用し、クラス不均衡問題に対処するオブジェクトヘッドを導入する。
さらに、簡単なレーダー融合バックボーンを導入し、ボクセルグループ化の必要性をなくし、スパース畳み込みではなく、標準的な2D畳み込みでBEVマップされた点雲を処理する。
nuScenesデータセットの大規模な評価は、RQR3Dがカメラレーダー3Dオブジェクト検出における最先端のパフォーマンスを達成し、NDSで+4%、mAPで+2.4%、安全な自動運転に不可欠な翻訳と方位誤差を著しく低減していることを示している。
これらの一貫性のある成果は、私たちのアプローチの堅牢性、正確性、および現実的な準備性を強調します。
関連論文リスト
- Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - OriCon3D: Effective 3D Object Detection using Orientation and Confidence [0.0]
1つの画像から3次元物体を検出するための高度な手法を提案する。
我々は、深層畳み込みニューラルネットワークに基づく3Dオブジェクト重み付け指向回帰パラダイムを用いる。
提案手法は, 3次元オブジェクトのポーズ決定の精度を大幅に向上し, ベースライン法を超越した。
論文 参考訳(メタデータ) (2023-04-27T19:52:47Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。