論文の概要: NeRF-Det: Learning Geometry-Aware Volumetric Representation for
Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2307.14620v1
- Date: Thu, 27 Jul 2023 04:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:50:28.597510
- Title: NeRF-Det: Learning Geometry-Aware Volumetric Representation for
Multi-View 3D Object Detection
- Title(参考訳): NeRF-Det:多視点3次元物体検出のための幾何学的学習量表現
- Authors: Chenfeng Xu, Bichen Wu, Ji Hou, Sam Tsai, Ruilong Li, Jialiang Wang,
Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka
- Abstract要約: 提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。
提案手法は3次元形状を明示的に推定するため, エンドツーエンドでNeRFを用いて3次元検出性能を向上する。
- 参考スコア(独自算出の注目度): 65.02633277884911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present NeRF-Det, a novel method for indoor 3D detection with posed RGB
images as input. Unlike existing indoor 3D detection methods that struggle to
model scene geometry, our method makes novel use of NeRF in an end-to-end
manner to explicitly estimate 3D geometry, thereby improving 3D detection
performance. Specifically, to avoid the significant extra latency associated
with per-scene optimization of NeRF, we introduce sufficient geometry priors to
enhance the generalizability of NeRF-MLP. Furthermore, we subtly connect the
detection and NeRF branches through a shared MLP, enabling an efficient
adaptation of NeRF to detection and yielding geometry-aware volumetric
representations for 3D detection. Our method outperforms state-of-the-arts by
3.9 mAP and 3.1 mAP on the ScanNet and ARKITScenes benchmarks, respectively. We
provide extensive analysis to shed light on how NeRF-Det works. As a result of
our joint-training design, NeRF-Det is able to generalize well to unseen scenes
for object detection, view synthesis, and depth estimation tasks without
requiring per-scene optimization. Code is available at
\url{https://github.com/facebookresearch/NeRF-Det}.
- Abstract(参考訳): 提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。
シーン形状のモデル化に苦慮する既存の屋内3d検出手法とは異なり,nerfをエンド・ツー・エンドで新規に使用することで3d形状を明示的に推定し,3d検出性能を向上させる。
具体的には、NeRFのシーンごとの最適化に付随する大きな遅延を避けるために、NeRF-MLPの一般化性を高めるのに十分な幾何の事前を導入する。
さらに,共有MLPを用いて検出とNeRF分岐をサブセットに接続し,3次元検出のための幾何学的容積表現の抽出と出力にNeRFを効果的に適用する。
提案手法は,ScanNetベンチマークとARKITScenesベンチマークでそれぞれ3.9mAP,3.1mAPの最先端性能を示した。
我々は、NeRF-Detの動作に関する詳細な分析を行っている。
共同トレーニング設計の結果、NeRF-Detは、シーンごとの最適化を必要とせず、オブジェクト検出、ビュー合成、深度推定といった未確認シーンをうまく一般化することができる。
コードは \url{https://github.com/facebookresearch/nerf-det} で入手できる。
関連論文リスト
- MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:58:41Z) - PruNeRF: Segment-Centric Dataset Pruning via 3D Spatial Consistency [33.68948881727943]
PruNeRFは3次元空間整合性によるセグメント中心のデータセットプルーニングフレームワークである。
ベンチマークデータセットを用いた実験により、PruNeRFは邪魔者に対するロバスト性において、最先端の手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-06-02T16:49:05Z) - NeRF-DetS: Enhancing Multi-View 3D Object Detection with Sampling-adaptive Network of Continuous NeRF-based Representation [60.47114985993196]
NeRF-Detは、新しいビュー演算と3D知覚のタスクを統一する。
我々は,新しい3次元知覚ネットワーク構造であるNeRF-DetSを導入する。
NeRF-DetSはScanNetV2データセット上で競合するNeRF-Detより優れている。
論文 参考訳(メタデータ) (2024-04-22T06:59:03Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection [31.58403386994297]
我々は,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。
具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。
我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T09:39:52Z) - Improving Neural Radiance Fields with Depth-aware Optimization for Novel
View Synthesis [12.3338393483795]
SfMNeRFは,新規な視点の合成と3次元シーン形状の再構成を行う手法である。
SfMNeRFは、エピポーラ性、光度整合性、深さの滑らかさ、および3Dシーン構造を明示的に再構成するためにマッチ位置制約を用いる。
2つの公開データセットの実験では、SfMNeRFが最先端のアプローチを上回ることが示されている。
論文 参考訳(メタデータ) (2023-04-11T13:37:17Z) - EGFN: Efficient Geometry Feature Network for Fast Stereo 3D Object
Detection [51.52496693690059]
高速ステレオベース3Dオブジェクト検出器は高精度指向法よりもはるかに遅れている。
主な理由として,高速ステレオ法における3次元幾何学的特徴表現の欠如や不足があげられる。
提案された EGFN は、YOLOStsereo3D よりも5.16%向上し、mAP$_3d$ をわずか12msで上回った。
論文 参考訳(メタデータ) (2021-11-28T05:25:36Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。