論文の概要: MonoCInIS: Camera Independent Monocular 3D Object Detection using
Instance Segmentation
- arxiv url: http://arxiv.org/abs/2110.00464v1
- Date: Fri, 1 Oct 2021 14:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:43:10.033108
- Title: MonoCInIS: Camera Independent Monocular 3D Object Detection using
Instance Segmentation
- Title(参考訳): MonoCinIS:インスタンスセグメンテーションを用いたカメラ独立型単眼物体検出
- Authors: Jonas Heylen, Mark De Wolf, Bruno Dawagne, Marc Proesmans, Luc Van
Gool, Wim Abbeloos, Hazem Abdelkawy, Daniel Olmeda Reino
- Abstract要約: 大規模で異質なトレーニングデータを活用するためには、"カメラ独立"の度合いが必要である。
大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータがパフォーマンスを自動で保証するのではなく、"カメラ独立"の度合いを持つ必要がある。
- 参考スコア(独自算出の注目度): 55.96577490779591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection has recently shown promising results, however
there remain challenging problems. One of those is the lack of invariance to
different camera intrinsic parameters, which can be observed across different
3D object datasets. Little effort has been made to exploit the combination of
heterogeneous 3D object datasets. In contrast to general intuition, we show
that more data does not automatically guarantee a better performance, but
rather, methods need to have a degree of 'camera independence' in order to
benefit from large and heterogeneous training data. In this paper we propose a
category-level pose estimation method based on instance segmentation, using
camera independent geometric reasoning to cope with the varying camera
viewpoints and intrinsics of different datasets. Every pixel of an instance
predicts the object dimensions, the 3D object reference points projected in 2D
image space and, optionally, the local viewing angle. Camera intrinsics are
only used outside of the learned network to lift the predicted 2D reference
points to 3D. We surpass camera independent methods on the challenging KITTI3D
benchmark and show the key benefits compared to camera dependent methods.
- Abstract(参考訳): 単眼の3dオブジェクト検出は、最近有望な結果を示しているが、依然として課題がある。
その1つは、異なるカメラ固有のパラメータに対する不変性の欠如であり、異なる3Dオブジェクトデータセット間で観測できる。
不均一な3Dオブジェクトデータセットの組み合わせを利用する努力はほとんど行われていない。
一般的な直観とは対照的に、大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータが自動的により良いパフォーマンスを保証するのではなく、"カメラ独立"の度合いを持つ必要がある。
本稿では、カメラ独立幾何学的推論を用いて、異なるデータセットの様々なカメラ視点と内在性に対処するカテゴリレベルのポーズ推定手法を提案する。
インスタンスの各ピクセルはオブジェクトの次元を予測し、2D画像空間に投影される3Dオブジェクト参照ポイントと、任意に局所的な視野角を予測します。
カメラの内在性は、予測された2D参照ポイントを3Dに上げるために学習ネットワークの外部でのみ使用される。
難解なkitti3dベンチマークでは,カメラ独立法を上回り,カメラ依存法と比較して重要な利点を示す。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras [3.648972014796591]
ビュービュー内の2Dオブジェクトと、複数のカメラからBEV空間内の3Dオブジェクトを同時に検出するSimPBと呼ばれる単一のモデルを提案する。
ハイブリッドデコーダは複数のマルチビュー2Dデコーダ層と複数の3Dデコーダ層で構成され、それぞれの検出タスク用に特別に設計されている。
論文 参考訳(メタデータ) (2024-03-15T14:39:39Z) - Explicit3D: Graph Network with Spatial Inference for Single Image 3D
Object Detection [35.85544715234846]
本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
論文 参考訳(メタデータ) (2023-02-13T16:19:54Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - YCB-M: A Multi-Camera RGB-D Dataset for Object Recognition and 6DoF Pose
Estimation [2.9972063833424216]
7つの異なる3Dカメラで撮影され、合計49,294フレームで撮影された32のシーンのデータセットを提示する。
これにより、使用するカメラの仕様に対するポーズ推定アルゴリズムの感度を評価することができる。
論文 参考訳(メタデータ) (2020-04-24T11:14:04Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。