論文の概要: One Point, One Object: Simultaneous 3D Object Segmentation and 6-DOF
Pose Estimation
- arxiv url: http://arxiv.org/abs/1912.12095v1
- Date: Fri, 27 Dec 2019 13:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 23:34:58.346358
- Title: One Point, One Object: Simultaneous 3D Object Segmentation and 6-DOF
Pose Estimation
- Title(参考訳): 1点, 1点:同時3次元オブジェクトセグメンテーションと6-DOFポーズ推定
- Authors: Hongsen Liu, Yang Cong, Yandong Tang
- Abstract要約: 純粋な3次元点雲シーンにおける3次元オブジェクト分割と6-DOFポーズ推定を同時に行う手法を提案する。
提案手法の重要な構成要素は,純3次元点群における3次元オブジェクト分割と6-DOFポーズ推定を同時に予測できるマルチタスクCNNアーキテクチャである。
実験評価のために,Augmented Reality (AR) を用いた2つの最先端3Dオブジェクトデータセット citePLciteTLINEMOD のための拡張トレーニングデータを生成する。
- 参考スコア(独自算出の注目度): 21.779479916071068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a single-shot method for simultaneous 3D object segmentation and
6-DOF pose estimation in pure 3D point clouds scenes based on a consensus that
\emph{one point only belongs to one object}, i.e., each point has the potential
power to predict the 6-DOF pose of its corresponding object. Unlike the
recently proposed methods of the similar task, which rely on 2D detectors to
predict the projection of 3D corners of the 3D bounding boxes and the 6-DOF
pose must be estimated by a PnP like spatial transformation method, ours is
concise enough not to require additional spatial transformation between
different dimensions. Due to the lack of training data for many objects, the
recently proposed 2D detection methods try to generate training data by using
rendering engine and achieve good results. However, rendering in 3D space along
with 6-DOF is relatively difficult. Therefore, we propose an augmented reality
technology to generate the training data in semi-virtual reality 3D space. The
key component of our method is a multi-task CNN architecture that can
simultaneously predicts the 3D object segmentation and 6-DOF pose estimation in
pure 3D point clouds.
For experimental evaluation, we generate expanded training data for two
state-of-the-arts 3D object datasets \cite{PLCHF}\cite{TLINEMOD} by using
Augmented Reality technology (AR). We evaluate our proposed method on the two
datasets. The results show that our method can be well generalized into
multiple scenarios and provide performance comparable to or better than the
state-of-the-arts.
- Abstract(参考訳): 本稿では,1つの点が1つのオブジェクトにのみ属すというコンセンサスに基づいて,純粋な3dポイント雲シーンにおける3dオブジェクトセグメンテーションと6dofポーズ推定を同時に行うシングルショット法を提案する。
3dバウンディングボックスの3dコーナーの投影を予測し、6-dofポーズをpnpのような空間変換法で推定するために2d検出器に依存する類似のタスクが最近提案されている方法とは異なり、我々は異なる次元間の空間変換を必要としないほど簡潔である。
多くのオブジェクトに対するトレーニングデータがないため、最近提案された2D検出手法はレンダリングエンジンを用いてトレーニングデータを生成し、良好な結果を得る。
しかし、6-DOFとともに3次元空間でのレンダリングは比較的困難である。
そこで本研究では,半仮想現実空間におけるトレーニングデータを生成する拡張現実技術を提案する。
この手法の重要なコンポーネントはマルチタスクcnnアーキテクチャであり、純粋な3dポイントクラウドにおける3dオブジェクトセグメンテーションと6dofポーズ推定を同時に予測できる。
実験評価のために,Augmented Reality Technology (AR) を用いて2つの最先端3Dオブジェクトデータセットであるcite{PLCHF}\cite{TlineMOD} のトレーニングデータを生成する。
提案手法を2つのデータセット上で評価する。
その結果,本手法は複数のシナリオにうまく一般化でき,最先端の手法に匹敵する性能を提供することができた。
関連論文リスト
- OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D
Data [15.53270401654078]
OVIR-3Dは、訓練に3Dデータを使うことなく、オープンな3Dオブジェクトインスタンス検索を行う方法である。
これはテキスト整列2D領域の提案を多視点で3D空間に融合することで実現される。
公開データセットと実際のロボットを用いた実験は、ロボットのナビゲーションと操作における手法の有効性とその可能性を示している。
論文 参考訳(メタデータ) (2023-11-06T05:00:00Z) - 6D Object Pose Estimation from Approximate 3D Models for Orbital
Robotics [19.64111218032901]
単一画像から物体の6次元ポーズを推定する新しい手法を提案する。
画素毎に3次元モデル座標を回帰する高密度な2次元から3次元対応予測器を用いる。
提案手法は,SPEED+データセット上での最先端性能を実現し,SPEC2021ポストモーテムコンペティションで優勝した。
論文 参考訳(メタデータ) (2023-03-23T13:18:05Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。
提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-03-07T16:23:47Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - L6DNet: Light 6 DoF Network for Robust and Precise Object Pose
Estimation with Small Datasets [0.0]
1枚のRGB-D画像から6つのDoFオブジェクトのポーズ推定を行う新しい手法を提案する。
データ駆動と幾何学という2段階のハイブリッドパイプラインを採用しています。
私たちのアプローチは最先端の手法よりも堅牢で正確です。
論文 参考訳(メタデータ) (2020-02-03T17:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。