論文の概要: GO-N3RDet: Geometry Optimized NeRF-enhanced 3D Object Detector
- arxiv url: http://arxiv.org/abs/2503.15211v1
- Date: Wed, 19 Mar 2025 13:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:20.211269
- Title: GO-N3RDet: Geometry Optimized NeRF-enhanced 3D Object Detector
- Title(参考訳): GO-N3RDet:Geometrytimized NeRF-enhanced 3D Object Detector
- Authors: Zechuan Li, Hongshan Yu, Yihao Ding, Jinhao Qiao, Basim Azam, Naveed Akhtar,
- Abstract要約: GO-N3RDet(GO-N3RDet)は、ニューラルレイディアンスフィールドによって強化されたシーンジオメトリ最適化されたマルチビュー3Dオブジェクト検出器である。
多視点特徴を融合させるために,独自の3次元位置情報埋め込みボクセル最適化機構を導入する。
我々のユニークなモジュールは、NeRFベースのマルチビュー3D検出において、新しい最先端状態を確立するエンドツーエンドのニューラルネットワークを相乗的に形成する。
- 参考スコア(独自算出の注目度): 22.82676897012763
- License:
- Abstract: We propose GO-N3RDet, a scene-geometry optimized multi-view 3D object detector enhanced by neural radiance fields. The key to accurate 3D object detection is in effective voxel representation. However, due to occlusion and lack of 3D information, constructing 3D features from multi-view 2D images is challenging. Addressing that, we introduce a unique 3D positional information embedded voxel optimization mechanism to fuse multi-view features. To prioritize neural field reconstruction in object regions, we also devise a double importance sampling scheme for the NeRF branch of our detector. We additionally propose an opacity optimization module for precise voxel opacity prediction by enforcing multi-view consistency constraints. Moreover, to further improve voxel density consistency across multiple perspectives, we incorporate ray distance as a weighting factor to minimize cumulative ray errors. Our unique modules synergetically form an end-to-end neural model that establishes new state-of-the-art in NeRF-based multi-view 3D detection, verified with extensive experiments on ScanNet and ARKITScenes. Code will be available at https://github.com/ZechuanLi/GO-N3RDet.
- Abstract(参考訳): 本稿では,ニューラルラディアンス場によって強化されたシーン幾何学最適化型多視点3次元物体検出器GO-N3RDetを提案する。
正確な3Dオブジェクト検出の鍵は、効果的なボクセル表現にある。
しかし、3D情報の排除や欠如により、多視点2D画像から3D機能を構築することは困難である。
そこで我々は,多視点特徴を融合させるために,独自の3次元位置情報埋め込みボクセル最適化機構を導入する。
対象領域における神経磁場再構成を優先するために, 検出器のNeRF分岐に対する2重重要なサンプリング手法も考案した。
また,複数視点の整合性制約を強制することにより,精度の高いボクセル不透明度予測のための不透明度最適化モジュールを提案する。
さらに,複数の視点におけるボクセル密度の整合性を改善するために,重み付け因子として線距離を取り入れ,累積誤差を最小化する。
我々のユニークなモジュールは、ScanNetとARKITScenesに関する広範な実験で検証された、NeRFベースのマルチビュー3D検出において、最先端の新たな状態を確立する、エンドツーエンドのニューラルネットワークを相乗的に形成する。
コードはhttps://github.com/ZechuanLi/GO-N3RDet.comから入手できる。
関連論文リスト
- MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:58:41Z) - Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - NeRF-Det: Learning Geometry-Aware Volumetric Representation for
Multi-View 3D Object Detection [65.02633277884911]
提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。
提案手法は3次元形状を明示的に推定するため, エンドツーエンドでNeRFを用いて3次元検出性能を向上する。
論文 参考訳(メタデータ) (2023-07-27T04:36:16Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。