論文の概要: CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors
Object Detection from Multi-view Images
- arxiv url: http://arxiv.org/abs/2403.04198v1
- Date: Thu, 7 Mar 2024 03:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:14:16.009740
- Title: CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors
Object Detection from Multi-view Images
- Title(参考訳): CN-RMA:マルチビュー画像からの3次元室内物体検出のためのレイマーキングアグリゲーション併用ネットワーク
- Authors: Guanlin Shen, Jingwei Huang, Zhihua Hu, Bin Wang
- Abstract要約: CN-RMAは多視点画像から3次元屋内物体を検出する新しい手法である。
多視点画像からの3次元物体検出における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 12.183656172911604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces CN-RMA, a novel approach for 3D indoor object detection
from multi-view images. We observe the key challenge as the ambiguity of image
and 3D correspondence without explicit geometry to provide occlusion
information. To address this issue, CN-RMA leverages the synergy of 3D
reconstruction networks and 3D object detection networks, where the
reconstruction network provides a rough Truncated Signed Distance Function
(TSDF) and guides image features to vote to 3D space correctly in an end-to-end
manner. Specifically, we associate weights to sampled points of each ray
through ray marching, representing the contribution of a pixel in an image to
corresponding 3D locations. Such weights are determined by the predicted signed
distances so that image features vote only to regions near the reconstructed
surface. Our method achieves state-of-the-art performance in 3D object
detection from multi-view images, as measured by mAP@0.25 and mAP@0.5 on the
ScanNet and ARKitScenes datasets. The code and models are released at
https://github.com/SerCharles/CN-RMA.
- Abstract(参考訳): マルチビュー画像からの3次元屋内物体検出のための新しいアプローチであるCN-RMAを提案する。
画像のあいまいさと3D対応の曖昧さを明示的な幾何を伴わずに観察し、オクルージョン情報を提供する。
この問題に対処するため、CN-RMAは3次元再構成ネットワークと3次元オブジェクト検出ネットワークの相乗効果を活用し、再構成ネットワークは粗切り符号距離関数(TSDF)を提供し、画像特徴をエンドツーエンドで正しく3次元空間に投票するように誘導する。
具体的には、画像中の画素が対応する3d位置への寄与を表すレイマーチングを通じて、各レイのサンプル点に重みを関連付ける。
このような重みは、予測された符号付き距離によって決定され、画像特徴が再構成面近傍の領域にのみ投票される。
ScanNet および ARKitScenes データセットの mAP@0.25 と mAP@0.5 を用いて, マルチビュー画像からの3次元オブジェクト検出における最先端性能を実現する。
コードとモデルはhttps://github.com/SerCharles/CN-RMAで公開されている。
関連論文リスト
- MVSDet: Multi-View Indoor 3D Object Detection via Efficient Plane Sweeps [51.44887282336391]
多視点屋内3次元物体検出の課題は、画像から正確な幾何学情報を推測して正確な3次元物体検出を行うことである。
それまでの手法は、幾何推論にNeRFに依存していた。
平面スイープを用いた3次元物体検出のためのMVSDetを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:58:41Z) - PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection [13.60524473223155]
本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。
PointADは、複数の2Dレンダリングに3D異常をレンダリングし、それらを3D空間に投影する。
我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに強化することができる。
論文 参考訳(メタデータ) (2024-10-01T01:40:22Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。