論文の概要: Category-Level 6D Object Pose Estimation with Flexible Vector-Based
Rotation Representation
- arxiv url: http://arxiv.org/abs/2212.04632v1
- Date: Fri, 9 Dec 2022 02:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:03:07.215194
- Title: Category-Level 6D Object Pose Estimation with Flexible Vector-Based
Rotation Representation
- Title(参考訳): フレキシブルベクトルに基づく回転表現を用いたカテゴリーレベル6次元物体ポーズ推定
- Authors: Wei Chen, Xi Jia, Zhongqun Zhang, Hyung Jin Chang, Linlin Shen and
Ales Leonardis
- Abstract要約: モノクロRGB-D画像からカテゴリレベルの6次元ポーズとサイズ推定のための新しい3次元グラフ畳み込みに基づくパイプラインを提案する。
まず,3次元グラフ畳み込みを用いた向き対応オートエンコーダの設計を行った。
そして, 回転情報を潜在特徴から効率的に復号化するために, フレキシブルなベクトルベースデコンポーザブルな回転表現を設計する。
- 参考スコア(独自算出の注目度): 51.67545893892129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel 3D graph convolution based pipeline for
category-level 6D pose and size estimation from monocular RGB-D images. The
proposed method leverages an efficient 3D data augmentation and a novel
vector-based decoupled rotation representation. Specifically, we first design
an orientation-aware autoencoder with 3D graph convolution for latent feature
learning. The learned latent feature is insensitive to point shift and size
thanks to the shift and scale-invariance properties of the 3D graph
convolution. Then, to efficiently decode the rotation information from the
latent feature, we design a novel flexible vector-based decomposable rotation
representation that employs two decoders to complementarily access the rotation
information. The proposed rotation representation has two major advantages: 1)
decoupled characteristic that makes the rotation estimation easier; 2) flexible
length and rotated angle of the vectors allow us to find a more suitable vector
representation for specific pose estimation task. Finally, we propose a 3D
deformation mechanism to increase the generalization ability of the pipeline.
Extensive experiments show that the proposed pipeline achieves state-of-the-art
performance on category-level tasks. Further, the experiments demonstrate that
the proposed rotation representation is more suitable for the pose estimation
tasks than other rotation representations.
- Abstract(参考訳): 本稿では,RGB-D画像からのカテゴリレベルの6次元ポーズとサイズ推定のための,新しい3次元グラフ畳み込みに基づくパイプラインを提案する。
提案手法は,効率的な3次元データ拡張とベクトルベースデカップリング回転表現を利用する。
具体的には,まず3次元グラフ畳み込みを用いた向き対応オートエンコーダを設計する。
学習された潜在機能は、3Dグラフ畳み込みのシフトとスケール不変性のおかげで、点シフトや大きさに敏感である。
次に, ローテーション情報を潜在特徴から効率的に復号化するために, 2つのデコーダを用いた新しいフレキシブルベクターベースデコンポーザブルなローテーション表現を設計し, 相補的にローテーション情報にアクセスする。
提案された回転表現には2つの大きな利点がある。
1) 回転推定を容易にする特徴を分離すること。
2) ベクトルのフレキシブルな長さと回転角は, 特定のポーズ推定タスクに対してより適切なベクトル表現を求めることができる。
最後に,パイプラインの一般化能力を高めるための3次元変形機構を提案する。
大規模な実験により,提案したパイプラインは,カテゴリーレベルのタスクで最先端のパフォーマンスを達成することが示された。
さらに,提案した回転表現は,他の回転表現よりもポーズ推定タスクに適していることを示した。
関連論文リスト
- RIDE: Boosting 3D Object Detection for LiDAR Point Clouds via Rotation-Invariant Analysis [15.42293045246587]
RIDEは3D LiDAR-point-based object DEtectorの回転不変性の先駆的な探索である。
回転に敏感ではあるが幾何をよく保持できる2機能抽出器と、幾何情報をある程度失うが回転に頑健な回転不変特徴を抽出する。
我々のRIDEは互換性があり、既存の1段と2段の3D検出器に簡単に接続でき、検出性能と回転ロバスト性の両方を高めることができる。
論文 参考訳(メタデータ) (2024-08-28T08:53:33Z) - VI-Net: Boosting Category-level 6D Object Pose Estimation via Learning
Decoupled Rotations on the Spherical Representations [55.25238503204253]
作業を容易にするために,VI-Netと呼ばれる新しい回転推定ネットワークを提案する。
球面信号を処理するために、SPAtial Spherical Convolutionの新たな設計に基づいて、球面特徴ピラミッドネットワークを構築する。
ベンチマークデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-08-19T05:47:53Z) - E-Graph: Minimal Solution for Rigid Rotation with Extensibility Graphs [61.552125054227595]
重なり合う領域を持たない2つの画像間の相対的な回転推定を解くために,新しい最小解を提案する。
E-Graphに基づいて、回転推定問題はより単純でエレガントになる。
回転推定戦略を6-DoFカメラのポーズと高密度3Dメッシュモデルを得る完全カメラ追跡マッピングシステムに組み込む。
論文 参考訳(メタデータ) (2022-07-20T16:11:48Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - SpinNet: Learning a General Surface Descriptor for 3D Point Cloud
Registration [57.28608414782315]
ローカルな特徴を抽出するために、SpinNetと呼ばれる新しい、概念的にはシンプルで、ニューラルなアーキテクチャを導入する。
屋内と屋外の両方の実験では、SpinNetが既存の最先端技術より優れていることが示されている。
論文 参考訳(メタデータ) (2020-11-24T15:00:56Z) - Rotation-Invariant Local-to-Global Representation Learning for 3D Point
Cloud [42.86112554931754]
本稿では,3次元点クラウドデータに対する局所的-言語的表現学習アルゴリズムを提案する。
本モデルは,グラフ畳み込みニューラルネットワークに基づく多レベル抽象化を利用する。
提案アルゴリズムは,3次元物体の回転認識とセグメント化のベンチマークにおいて,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-10-07T10:30:20Z) - A Smooth Representation of Belief over SO(3) for Deep Rotation Learning
with Uncertainty [33.627068152037815]
本稿では、3次元回転群の新しい対称行列表現 SO(3) と、学習モデルに特に適する2つの重要な性質について述べる。
我々は,2つのデータモダリティに基づいて深部神経回転回帰器を訓練することにより,定式化の利点を実証的に検証した。
この機能は、新しい入力を検出することで、学習したモデルの破滅的な失敗を防ぐ安全クリティカルなアプリケーションにとって鍵となる。
論文 参考訳(メタデータ) (2020-06-01T15:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。