論文の概要: MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps
- arxiv url: http://arxiv.org/abs/2410.21566v1
- Date: Mon, 28 Oct 2024 21:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:43.875917
- Title: MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps
- Title(参考訳): MVSDet:効率的な平面スイープによる屋内3次元物体の多視点検出
- Authors: Yating Xu, Chen Li, Gim Hee Lee,
- Abstract要約: 多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
- 参考スコア(独自算出の注目度): 51.44887282336391
- License:
- Abstract: The key challenge of multi-view indoor 3D object detection is to infer accurate geometry information from images for precise 3D detection. Previous method relies on NeRF for geometry reasoning. However, the geometry extracted from NeRF is generally inaccurate, which leads to sub-optimal detection performance. In this paper, we propose MVSDet which utilizes plane sweep for geometry-aware 3D object detection. To circumvent the requirement for a large number of depth planes for accurate depth prediction, we design a probabilistic sampling and soft weighting mechanism to decide the placement of pixel features on the 3D volume. We select multiple locations that score top in the probability volume for each pixel and use their probability score to indicate the confidence. We further apply recent pixel-aligned Gaussian Splatting to regularize depth prediction and improve detection performance with little computation overhead. Extensive experiments on ScanNet and ARKitScenes datasets are conducted to show the superiority of our model. Our code is available at https://github.com/Pixie8888/MVSDet.
- Abstract(参考訳): 多視点屋内3次元物体検出の鍵となる課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
しかし、NeRFから抽出された幾何は一般に不正確なため、準最適検出性能が得られる。
本稿では,平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
高精度な深度予測のための多数の深度平面の要求を回避するため,3次元体積に画素の配置を決定するための確率的サンプリングおよび軟重み付け機構を設計する。
我々は、各画素の確率ボリュームでトップとなる複数の位置を選択し、その確率スコアを用いて信頼度を示す。
さらに,近年の画素配向ガウススプラッティングを用いて,深度予測の正規化と,計算オーバーヘッドの少ない検出性能の向上を図る。
ScanNetとARKitScenesデータセットに関する大規模な実験を行い、モデルの優位性を示す。
私たちのコードはhttps://github.com/Pixie8888/MVSDet.comから入手可能です。
関連論文リスト
- Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - NeRF-Det: Learning Geometry-Aware Volumetric Representation for
Multi-View 3D Object Detection [65.02633277884911]
提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。
提案手法は3次元形状を明示的に推定するため, エンドツーエンドでNeRFを用いて3次元検出性能を向上する。
論文 参考訳(メタデータ) (2023-07-27T04:36:16Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - 3DPPE: 3D Point Positional Encoding for Multi-Camera 3D Object Detection
Transformers [35.14784758217257]
本稿では,3D検出トランスフォーマーデコーダに3Dポイント位置符号化,3DPPEを導入する。
近似にもかかわらず、3DPPEは競合するnuScenesデータセット上で46.0 mAPと51.4 NDSを達成した。
論文 参考訳(メタデータ) (2022-11-27T03:36:32Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。