Fugu-MT 論文翻訳(概要): One Point, One Object: Simultaneous 3D Object Segmentation and 6-DOF Pose Estimation

論文の概要: One Point, One Object: Simultaneous 3D Object Segmentation and 6-DOF Pose Estimation

arxiv url: http://arxiv.org/abs/1912.12095v2
Date: Thu, 6 Jun 2024 08:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-08 01:27:18.090833
Title: One Point, One Object: Simultaneous 3D Object Segmentation and 6-DOF Pose Estimation
Title（参考訳）: 1点, 1点:同時3次元オブジェクトセグメンテーションと6-DOFポーズ推定
Authors: Hongsen Liu,
Abstract要約: 純粋な3次元点雲シーンにおける3次元オブジェクト分割と6-DOFポーズ推定を同時に行う手法を提案する。提案手法の重要な構成要素は,純3次元点群における3次元オブジェクト分割と6-DOFポーズ推定を同時に予測できるマルチタスクCNNアーキテクチャである。実験評価のために,Augmented Reality (AR) を用いた2つの最先端3Dオブジェクトデータセット citePLciteTLINEMOD のための拡張トレーニングデータを生成する。
参考スコア（独自算出の注目度）: 0.7252027234425334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a single-shot method for simultaneous 3D object segmentation and 6-DOF pose estimation in pure 3D point clouds scenes based on a consensus that \emph{one point only belongs to one object}, i.e., each point has the potential power to predict the 6-DOF pose of its corresponding object. Unlike the recently proposed methods of the similar task, which rely on 2D detectors to predict the projection of 3D corners of the 3D bounding boxes and the 6-DOF pose must be estimated by a PnP like spatial transformation method, ours is concise enough not to require additional spatial transformation between different dimensions. Due to the lack of training data for many objects, the recently proposed 2D detection methods try to generate training data by using rendering engine and achieve good results. However, rendering in 3D space along with 6-DOF is relatively difficult. Therefore, we propose an augmented reality technology to generate the training data in semi-virtual reality 3D space. The key component of our method is a multi-task CNN architecture that can simultaneously predicts the 3D object segmentation and 6-DOF pose estimation in pure 3D point clouds. For experimental evaluation, we generate expanded training data for two state-of-the-arts 3D object datasets \cite{PLCHF}\cite{TLINEMOD} by using Augmented Reality technology (AR). We evaluate our proposed method on the two datasets. The results show that our method can be well generalized into multiple scenarios and provide performance comparable to or better than the state-of-the-arts.
Abstract（参考訳）: そこで本研究では,3次元オブジェクト分割と6-DOFのポーズ推定を同時に行う単一ショット方式を提案する。最近提案された3次元境界箱の3次元角の投影を2次元検出器で予測する類似タスクの手法とは異なり、PnPのような空間変換法により6-DOFのポーズを推定する必要がある。多くのオブジェクトに対するトレーニングデータが不足しているため、最近提案された2D検出手法は、レンダリングエンジンを用いてトレーニングデータを生成し、良好な結果を得る。しかし、6-DOFとともに3次元空間でのレンダリングは比較的困難である。そこで本研究では,半仮想現実空間におけるトレーニングデータを生成するための拡張現実技術を提案する。提案手法の主な構成要素は,純3次元点群における3次元オブジェクト分割と6-DOFポーズ推定を同時に予測できるマルチタスクCNNアーキテクチャである。実験評価のために,Augmented Reality Technology (AR) を用いて2つの最先端3Dオブジェクトデータセットであるcite{PLCHF}\cite{TlineMOD} のトレーニングデータを生成する。提案手法を2つのデータセット上で評価する。その結果,本手法は複数のシナリオに適切に一般化され,最先端技術に匹敵する性能が得られることがわかった。

関連論文リスト

HyperPointFormer: Multimodal Fusion in 3D Space with Dual-Branch Cross-Attention Transformers [10.24051363232541]
マルチモーダルリモートセンシングデータ(スペクトル,ライダー,フォトグラムなど)は,都市景観における土地利用・土地被覆分類の達成に不可欠である。本稿では,3Dポイントクラウド内のすべてのモダリティを融合する完全3Dベースの手法を提案し,専用のデュアルアテンショントランスモデルを用いる。以上の結果から, 3次元融合は2次元法と比較して競争力があり, 3次元予測を提供することにより, 柔軟性が向上することが示唆された。
論文参考訳（メタデータ） (2025-05-29T07:45:19Z)
OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D Data [15.53270401654078]
OVIR-3Dは、訓練に3Dデータを使うことなく、オープンな3Dオブジェクトインスタンス検索を行う方法である。これはテキスト整列2D領域の提案を多視点で3D空間に融合することで実現される。公開データセットと実際のロボットを用いた実験は、ロボットのナビゲーションと操作における手法の有効性とその可能性を示している。
論文参考訳（メタデータ） (2023-11-06T05:00:00Z)
6D Object Pose Estimation from Approximate 3D Models for Orbital Robotics [19.64111218032901]
単一画像から物体の6次元ポーズを推定する新しい手法を提案する。画素毎に3次元モデル座標を回帰する高密度な2次元から3次元対応予測器を用いる。提案手法は,SPEED+データセット上での最先端性能を実現し,SPEC2021ポストモーテムコンペティションで優勝した。
論文参考訳（メタデータ） (2023-03-23T13:18:05Z)
Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文参考訳（メタデータ） (2022-07-30T01:48:23Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)
Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文参考訳（メタデータ） (2022-03-07T16:23:47Z)
FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文参考訳（メタデータ） (2021-03-12T03:07:24Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)
DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文参考訳（メタデータ） (2020-04-02T17:48:50Z)
SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。 SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文参考訳（メタデータ） (2020-02-24T08:15:36Z)
L6DNet: Light 6 DoF Network for Robust and Precise Object Pose Estimation with Small Datasets [0.0]
1枚のRGB-D画像から6つのDoFオブジェクトのポーズ推定を行う新しい手法を提案する。データ駆動と幾何学という2段階のハイブリッドパイプラインを採用しています。私たちのアプローチは最先端の手法よりも堅牢で正確です。
論文参考訳（メタデータ） (2020-02-03T17:41:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。