論文の概要: ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View
General-Purpose 3D Object Detection
- arxiv url: http://arxiv.org/abs/2106.01178v1
- Date: Wed, 2 Jun 2021 14:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:27:24.709419
- Title: ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View
General-Purpose 3D Object Detection
- Title(参考訳): ImVoxelNet:単眼・多視野汎用3Dオブジェクト検出のためのVoxels投影画像
- Authors: Danila Rukhovich, Anna Vorontsova, Anton Konushin
- Abstract要約: ImVoxelNetは、モノクロまたはマルチビューRGB画像に基づく3Dオブジェクト検出の新しい完全畳み込み方式である。
ImVoxelNetは、屋内と屋外の両方のシーンをうまく処理する。
SUN RGB-Dデータセット上の既存のRGBベースの3Dオブジェクト検出方法を上回る。
- 参考スコア(独自算出の注目度): 3.330229314824913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the task of multi-view RGB-based 3D object
detection as an end-to-end optimization problem. To address this problem, we
propose ImVoxelNet, a novel fully convolutional method of 3D object detection
based on monocular or multi-view RGB images. The number of monocular images in
each multi-view input can variate during training and inference; actually, this
number might be unique for each multi-view input. ImVoxelNet successfully
handles both indoor and outdoor scenes, which makes it general-purpose.
Specifically, it achieves state-of-the-art results in car detection on KITTI
(monocular) and nuScenes (multi-view) benchmarks among all methods that accept
RGB images. Moreover, it surpasses existing RGB-based 3D object detection
methods on the SUN RGB-D dataset. On ScanNet, ImVoxelNet sets a new benchmark
for multi-view 3D object detection. The source code and the trained models are
available at \url{https://github.com/saic-vul/imvoxelnet}.
- Abstract(参考訳): 本稿では,多視点RGBに基づく3Dオブジェクト検出の課題をエンドツーエンド最適化問題として紹介する。
そこで本研究では,単眼または多視点rgb画像に基づく3次元物体検出の完全畳み込み手法であるimvoxelnetを提案する。
各マルチビュー入力における単眼画像の数は、トレーニングと推論の間に変動しうるが、実際には、この数は各マルチビュー入力に対して一意である。
ImVoxelNetは、屋内と屋外の両方のシーンをうまく処理する。
具体的には、RGB画像を受け入れるすべての方法の中で、KITTI (monocular) と nuScenes (multi-view) ベンチマークにおける車両検出の最先端結果を達成する。
さらに、SUN RGB-Dデータセット上の既存のRGBベースの3Dオブジェクト検出手法を上回る。
ScanNetでは、ImVoxelNetがマルチビュー3Dオブジェクト検出のための新しいベンチマークを設定している。
ソースコードとトレーニングされたモデルは \url{https://github.com/saic-vul/imvoxelnet} で入手できる。
関連論文リスト
- CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors Object Detection from Multi-view Images [11.152821406076486]
CN-RMAは多視点画像から3次元屋内物体を検出する新しい手法である。
多視点画像からの3次元物体検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-07T03:59:47Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - ImGeoNet: Image-induced Geometry-aware Voxel Representation for
Multi-view 3D Object Detection [24.29296860815032]
ImGeoNetは画像に基づく3Dオブジェクト検出フレームワークで、画像による幾何学的なボクセル表現によって3D空間をモデル化する。
我々は、ARKitScenes、ScanNetV2、ScanNet200という3つの屋内データセットで実験を行う。
本研究は,画像による幾何認識表現により,画像に基づく手法がより優れた検出精度を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-08-17T16:49:38Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - VPIT: Real-time Embedded Single Object 3D Tracking Using Voxel Pseudo Images [90.60881721134656]
本稿では,Voxel Pseudo Image Tracking (VPIT) という,Voxel-based 3D Single Object Tracking (3D SOT) 手法を提案する。
KITTI追跡データセットの実験は、VPITが最速の3D SOT法であり、競合的な成功と精度の値を維持することを示している。
論文 参考訳(メタデータ) (2022-06-06T14:02:06Z) - An Overview Of 3D Object Detection [21.159668390764832]
マルチクラスオブジェクト認識を行うために,RGBデータとポイントクラウドデータの両方を用いるフレームワークを提案する。
最近リリースされたnuScenesデータセット - 大規模なデータセットには多くのデータフォーマットが含まれています - をトレーニングし、提案したアーキテクチャを評価します。
論文 参考訳(メタデータ) (2020-10-29T14:04:50Z) - Single-Shot 3D Detection of Vehicles from Monocular RGB Images via
Geometry Constrained Keypoints in Real-Time [6.82446891805815]
単眼RGB画像における車両検出のための新しい3次元単発物体検出法を提案する。
提案手法は,3次元空間への2次元検出を付加回帰および分類パラメータの予測により引き上げる。
KITTI 3D Object Detection と新しい nuScenes Object Detection ベンチマークを用いて,自律走行のための異なるデータセットに対するアプローチを検証し,その評価を行った。
論文 参考訳(メタデータ) (2020-06-23T15:10:19Z) - EPOS: Estimating 6D Pose of Objects with Symmetries [57.448933686429825]
1つのRGB入力から利用可能な3次元モデルを用いて、剛体物体の6次元ポーズを推定する新しい手法を提案する。
オブジェクトは、体系的な方法で対称性を許容するコンパクトな表面フラグメントによって表現される。
エンコーダデコーダネットワークを用いて,高密度サンプリング画素とフラグメントの対応性を予測する。
論文 参考訳(メタデータ) (2020-04-01T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。