論文の概要: OcRFDet: Object-Centric Radiance Fields for Multi-View 3D Object Detection in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.23565v1
- Date: Mon, 30 Jun 2025 07:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.950898
- Title: OcRFDet: Object-Centric Radiance Fields for Multi-View 3D Object Detection in Autonomous Driving
- Title(参考訳): OcRFDet: 自律走行における多視点3次元物体検出のための物体中心放射場
- Authors: Mingqian Ji, Jian Yang, Shanshan Zhang,
- Abstract要約: 現在の多視点3Dオブジェクト検出法は、通常、深度推定や3D位置エンコーダを用いて2次元特徴を3次元空間に転送する。
3次元再構成における放射場の成功に触発されて、検出器の3次元幾何推定能力を高めることができると仮定する。
我々は,前景オブジェクトを描画する補助的なタスクを通じて,3次元ボクセル特性を高めるために,OcRF(Object-centric Radiance Fields)を提案する。
- 参考スコア(独自算出の注目度): 32.07206206508925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multi-view 3D object detection methods typically transfer 2D features into 3D space using depth estimation or 3D position encoder, but in a fully data-driven and implicit manner, which limits the detection performance. Inspired by the success of radiance fields on 3D reconstruction, we assume they can be used to enhance the detector's ability of 3D geometry estimation. However, we observe a decline in detection performance, when we directly use them for 3D rendering as an auxiliary task. From our analysis, we find the performance drop is caused by the strong responses on the background when rendering the whole scene. To address this problem, we propose object-centric radiance fields, focusing on modeling foreground objects while discarding background noises. Specifically, we employ Object-centric Radiance Fields (OcRF) to enhance 3D voxel features via an auxiliary task of rendering foreground objects. We further use opacity - the side-product of rendering- to enhance the 2D foreground BEV features via Height-aware Opacity-based Attention (HOA), where attention maps at different height levels are generated separately via multiple networks in parallel. Extensive experiments on the nuScenes validation and test datasets demonstrate that our OcRFDet achieves superior performance, outperforming previous state-of-the-art methods with 57.2$\%$ mAP and 64.8$\%$ NDS on the nuScenes test benchmark. Code will be available at https://github.com/Mingqj/OcRFDet.
- Abstract(参考訳): 現在のマルチビュー3Dオブジェクト検出法は、通常、深度推定や3D位置エンコーダを用いて2D機能を3次元空間に転送するが、完全にデータ駆動的で暗黙的な方法で検出性能を制限している。
3次元再構成における放射場の成功に触発されて、検出器の3次元幾何推定能力を高めることができると仮定する。
しかし,3次元レンダリングを補助タスクとして直接利用する場合には,検出性能の低下が観察される。
分析の結果,シーン全体をレンダリングする場合,背景の強い応答がパフォーマンス低下の原因となることがわかった。
この問題に対処するために,背景雑音を除去しながら前景オブジェクトをモデル化することに着目し,対象中心の放射場を提案する。
具体的には,OcRF(Object-centric Radiance Fields)を用いて,前景オブジェクトを描画する補助的なタスクを通じて3次元ボクセル特性を向上する。
我々はさらに、複数のネットワークを介して異なる高さレベルの注意マップを別々に生成するHOA(Height-aware Opacity-based Attention)を介して、2DフォアグラウンドのBEV機能を強化するために、レンダリングの副産物である不透明度を利用する。
nuScenesの検証とテストデータセットに関する大規模な実験により、私たちのOcRFDetは、57.2$\%$ mAPと64.8$\%$ NDSで従来の最先端のメソッドよりも優れたパフォーマンスを実現していることが示された。
コードはhttps://github.com/Mingqj/OcRFDet.comで入手できる。
関連論文リスト
- What Matters in Range View 3D Object Detection [15.147558647138629]
ライダーベースの知覚パイプラインは複雑なシーンを解釈するために3Dオブジェクト検出モデルに依存している。
過去のレンジビュー文献に提案されている複数の手法を使わずに、レンジビュー3次元オブジェクト検出モデル間の最先端を実現する。
論文 参考訳(メタデータ) (2024-07-23T18:42:37Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object
Detection [17.526914782562528]
グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で49.5 NDSを達成し、様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2022-04-25T12:10:34Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。