論文の概要: FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism
- arxiv url: http://arxiv.org/abs/2103.07054v1
- Date: Fri, 12 Mar 2021 03:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:23:43.620450
- Title: FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism
- Title(参考訳): FS-Net - Decoupled Rotation Mechanismを用いたカテゴリレベル6Dオブジェクトポース推定のための高速シェイプベースネットワーク
- Authors: Wei Chen, Xi Jia, Hyung Jin Chang, Jinming Duan, Linlin Shen, Ales
Leonardis
- Abstract要約: 6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 49.89268018642999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on category-level 6D pose and size estimation from
monocular RGB-D image. Previous methods suffer from inefficient category-level
pose feature extraction which leads to low accuracy and inference speed. To
tackle this problem, we propose a fast shape-based network (FS-Net) with
efficient category-level feature extraction for 6D pose estimation. First, we
design an orientation aware autoencoder with 3D graph convolution for latent
feature extraction. The learned latent feature is insensitive to point shift
and object size thanks to the shift and scale-invariance properties of the 3D
graph convolution. Then, to efficiently decode category-level rotation
information from the latent feature, we propose a novel decoupled rotation
mechanism that employs two decoders to complementarily access the rotation
information. Meanwhile, we estimate translation and size by two residuals,
which are the difference between the mean of object points and ground truth
translation, and the difference between the mean size of the category and
ground truth size, respectively. Finally, to increase the generalization
ability of FS-Net, we propose an online box-cage based 3D deformation mechanism
to augment the training data. Extensive experiments on two benchmark datasets
show that the proposed method achieves state-of-the-art performance in both
category- and instance-level 6D object pose estimation. Especially in
category-level pose estimation, without extra synthetic data, our method
outperforms existing methods by 6.3% on the NOCS-REAL dataset.
- Abstract(参考訳): 本稿では,モノクロRGB-D画像からカテゴリレベルの6Dポーズとサイズ推定に焦点をあてる。
従来の手法は非効率なカテゴリレベルのポーズ特徴抽出に苦しむため、精度と推論速度が低下する。
そこで本研究では,6次元ポーズ推定のためのカテゴリレベルの特徴抽出を効率的に行う高速形状ネットワーク(FS-Net)を提案する。
まず, 3次元グラフ畳み込みを用いた指向性を考慮したオートエンコーダの設計を行った。
学習された潜在機能は、3Dグラフ畳み込みのシフトとスケール不変性のおかげで、点シフトやオブジェクトサイズに敏感である。
次に,潜在特徴からカテゴリレベルの回転情報を効率的にデコードするために,2つのデコーダを用いた新しいデカップリング回転機構を提案する。
一方,対象点の平均と接地真理変換の差である2つの残差による翻訳とサイズを推定し,各カテゴリーの平均サイズと接地真理変換の差を推定する。
最後に、FS-Netの一般化能力を高めるために、トレーニングデータを拡張するためのオンラインボックスケージベースの3次元変形機構を提案する。
2つのベンチマークデータセットの大規模な実験により、提案手法はカテゴリレベルとインスタンスレベルの6Dオブジェクトのポーズ推定の両方において最先端の性能を達成することが示された。
特にカテゴリレベルのポーズ推定では、余分な合成データなしで、この手法はNOCS-REALデータセット上の既存のメソッドを6.3%上回る。
関連論文リスト
- RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - VI-Net: Boosting Category-level 6D Object Pose Estimation via Learning
Decoupled Rotations on the Spherical Representations [55.25238503204253]
作業を容易にするために,VI-Netと呼ばれる新しい回転推定ネットワークを提案する。
球面信号を処理するために、SPAtial Spherical Convolutionの新たな設計に基づいて、球面特徴ピラミッドネットワークを構築する。
ベンチマークデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-08-19T05:47:53Z) - Category-Level 6D Object Pose Estimation with Flexible Vector-Based
Rotation Representation [51.67545893892129]
モノクロRGB-D画像からカテゴリレベルの6次元ポーズとサイズ推定のための新しい3次元グラフ畳み込みに基づくパイプラインを提案する。
まず,3次元グラフ畳み込みを用いた向き対応オートエンコーダの設計を行った。
そして, 回転情報を潜在特徴から効率的に復号化するために, フレキシブルなベクトルベースデコンポーザブルな回転表現を設計する。
論文 参考訳(メタデータ) (2022-12-09T02:13:43Z) - Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering
of Neural Features [17.920305227880245]
1枚のRGB画像からカテゴリレベルの6Dポーズ推定の問題を考察する。
提案手法は,対象カテゴリを立方体メッシュとして表現し,各メッシュにおける神経機能アクティベーションの生成モデルを学習する。
実験では,先行作業と比較して,カテゴリレベルの6次元ポーズ推定性能が向上した。
論文 参考訳(メタデータ) (2022-09-12T21:31:36Z) - CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects
from Point Clouds [97.63549045541296]
新規なリジッドオブジェクトインスタンスに対する9DoFポーズトラッキングと,関節付きオブジェクトに対するパート毎ポーズトラッキングを処理可能な統一フレームワークを提案する。
本手法は、高速なFPS 12で、カテゴリレベルのリジッドオブジェクトポーズ(NOCS-REAL275)と関節オブジェクトポーズベンチマーク(SAPIEN、BMVC)の最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-08T00:14:58Z) - 3D Point-to-Keypoint Voting Network for 6D Pose Estimation [8.801404171357916]
3次元キーポイントの空間構造特性に基づくRGB-Dデータから6次元ポーズ推定のためのフレームワークを提案する。
提案手法は, LINEMOD と OCCLUSION LINEMOD の2つのベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-12-22T11:43:15Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - L6DNet: Light 6 DoF Network for Robust and Precise Object Pose
Estimation with Small Datasets [0.0]
1枚のRGB-D画像から6つのDoFオブジェクトのポーズ推定を行う新しい手法を提案する。
データ駆動と幾何学という2段階のハイブリッドパイプラインを採用しています。
私たちのアプローチは最先端の手法よりも堅牢で正確です。
論文 参考訳(メタデータ) (2020-02-03T17:41:29Z) - One Point, One Object: Simultaneous 3D Object Segmentation and 6-DOF Pose Estimation [0.7252027234425334]
純粋な3次元点雲シーンにおける3次元オブジェクト分割と6-DOFポーズ推定を同時に行う手法を提案する。
提案手法の重要な構成要素は,純3次元点群における3次元オブジェクト分割と6-DOFポーズ推定を同時に予測できるマルチタスクCNNアーキテクチャである。
実験評価のために,Augmented Reality (AR) を用いた2つの最先端3Dオブジェクトデータセット citePLciteTLINEMOD のための拡張トレーニングデータを生成する。
論文 参考訳(メタデータ) (2019-12-27T13:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。