論文の概要: Learning Canonical Shape Space for Category-Level 6D Object Pose and
Size Estimation
- arxiv url: http://arxiv.org/abs/2001.09322v3
- Date: Sun, 21 Nov 2021 08:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 00:17:16.402277
- Title: Learning Canonical Shape Space for Category-Level 6D Object Pose and
Size Estimation
- Title(参考訳): カテゴリーレベル6次元オブジェクトマップのための標準形状空間の学習とサイズ推定
- Authors: Dengsheng Chen and Jun Li and Zheng Wang and Kai Xu
- Abstract要約: 我々は、ある対象カテゴリの多種多様なインスタンスに対する統一表現である標準形状空間(CASS)を学習する。
RGBD画像から標準空間の3次元点雲を生成するための変分自動エンコーダ(VAE)を訓練する。
VAEはクロスカテゴリな方法でトレーニングされており、公開されている大規模な3D形状リポジトリを活用している。
- 参考スコア(独自算出の注目度): 21.7030393344051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel approach to category-level 6D object pose and size
estimation. To tackle intra-class shape variations, we learn canonical shape
space (CASS), a unified representation for a large variety of instances of a
certain object category. In particular, CASS is modeled as the latent space of
a deep generative model of canonical 3D shapes with normalized pose. We train a
variational auto-encoder (VAE) for generating 3D point clouds in the canonical
space from an RGBD image. The VAE is trained in a cross-category fashion,
exploiting the publicly available large 3D shape repositories. Since the 3D
point cloud is generated in normalized pose (with actual size), the encoder of
the VAE learns view-factorized RGBD embedding. It maps an RGBD image in
arbitrary view into a pose-independent 3D shape representation. Object pose is
then estimated via contrasting it with a pose-dependent feature of the input
RGBD extracted with a separate deep neural networks. We integrate the learning
of CASS and pose and size estimation into an end-to-end trainable network,
achieving the state-of-the-art performance.
- Abstract(参考訳): カテゴリレベルの6次元オブジェクトのポーズとサイズ推定に対する新しいアプローチを提案する。
クラス内形状の変動に対処するために、ある対象カテゴリの多種多様なインスタンスに対する統一表現である標準形状空間(CASS)を学習する。
特にCASSは、正規化されたポーズを持つ標準3次元形状の深部生成モデルの潜在空間としてモデル化されている。
RGBD画像から標準空間の3次元点雲を生成するための変分自動エンコーダ(VAE)を訓練する。
VAEはクロスカテゴリな方法でトレーニングされており、公開されている大きな3D形状リポジトリを活用している。
3Dポイントクラウドは(実際のサイズで)正規化されたポーズで生成されるので、VAEのエンコーダはビューファクタ化されたRGBD埋め込みを学ぶ。
RGBD画像を任意のビューで、ポーズ非依存の3D形状表現にマッピングする。
オブジェクトのポーズは、別のディープニューラルネットワークで抽出された入力RGBDのポーズ依存の特徴と対比することで推定される。
我々はCASSの学習とポーズとサイズ推定をエンドツーエンドのトレーニング可能なネットワークに統合し、最先端の性能を実現する。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Self-Supervised Geometric Correspondence for Category-Level 6D Object
Pose Estimation in the Wild [47.80637472803838]
本研究では,大規模現実世界のオブジェクトビデオを直接学習し,カテゴリーレベルの6Dポーズ推定を行う自己教師型学習手法を提案する。
本フレームワークは,対象カテゴリの正準3次元形状を再構成し,入力画像と正準形状との密接な対応を表面埋め込みにより学習する。
意外なことに、人間のアノテーションやシミュレータを使わずに、従来の教師付きあるいは半教師付き画像の半教師付き手法よりも、オンパーまたはそれ以上のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2022-10-13T17:19:22Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - ConDor: Self-Supervised Canonicalization of 3D Pose for Partial Shapes [55.689763519293464]
ConDorは、完全および部分的な3次元点雲の3次元配向と位置を正準化することを学ぶ自己教師型手法である。
推測中,本手法は任意のポーズで完全あるいは部分的な3次元点の雲を抽出し,同変正則のポーズを出力する。
論文 参考訳(メタデータ) (2022-01-19T18:57:21Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。