論文の概要: End-to-End Learning of Multi-category 3D Pose and Shape Estimation
- arxiv url: http://arxiv.org/abs/2112.10196v1
- Date: Sun, 19 Dec 2021 17:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:33:05.825213
- Title: End-to-End Learning of Multi-category 3D Pose and Shape Estimation
- Title(参考訳): 多カテゴリー3次元画像のエンドツーエンド学習と形状推定
- Authors: Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool
- Abstract要約: 本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
- 参考スコア(独自算出の注目度): 128.881857704338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the representation of the shape and pose of objects
using their keypoints. Therefore, we propose an end-to-end method that
simultaneously detects 2D keypoints from an image and lifts them to 3D. The
proposed method learns both 2D detection and 3D lifting only from 2D keypoints
annotations. In this regard, a novel method that explicitly disentangles the
pose and 3D shape by means of augmentation-based cyclic self-supervision is
proposed, for the first time. In addition of being end-to-end in image to 3D
learning, our method also handles objects from multiple categories using a
single neural network. We use a Transformer-based architecture to detect the
keypoints, as well as to summarize the visual context of the image. This visual
context information is then used while lifting the keypoints to 3D, so as to
allow the context-based reasoning for better performance. While lifting, our
method learns a small set of basis shapes and their sparse non-negative
coefficients to represent the 3D shape in canonical frame. Our method can
handle occlusions as well as wide variety of object classes. Our experiments on
three benchmarks demonstrate that our method performs better than the
state-of-the-art. Our source code will be made publicly available.
- Abstract(参考訳): 本稿では,そのキーポイントを用いて物体の形状と姿勢の表現について検討する。
そこで本研究では,画像から2Dキーポイントを同時に検出し,それらを3Dに引き上げるエンドツーエンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
そこで本研究では, 強調型循環型自己スーパービジョンを用いて, ポーズと3次元形状を明示的に区別する新しい手法を初めて提案する。
画像から3D学習へのエンドツーエンド化に加えて、ニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
画像の視覚的なコンテキストを要約するだけでなく、キーポイントを検出するためにトランスフォーマティブベースのアーキテクチャを使用します。
この視覚的なコンテキスト情報はキーポイントを3dに持ち上げるときに使用され、コンテキストベースの推論によりパフォーマンスが向上する。
持ち上げながら,基本形状の小さな集合と,そのスパースな非負係数を学習し,標準フレーム内の3次元形状を表現する。
本手法は様々なオブジェクトクラスと同様にオクルージョンを扱うことができる。
3つのベンチマーク実験により,本手法は最先端の手法よりも優れた性能を示した。
私たちのソースコードは公開されます。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Piecewise Planar Hulls for Semi-Supervised Learning of 3D Shape and Pose
from 2D Images [133.68032636906133]
本研究では,1つの2次元画像から,物体の3次元形状とポーズをキーポイントで推定する問題について検討する。
形状とポーズは、カテゴリによって収集された画像と、その部分的な2Dキーポイントアノテーションから直接学習される。
論文 参考訳(メタデータ) (2022-11-14T16:18:11Z) - Understanding Pixel-level 2D Image Semantics with 3D Keypoint Knowledge
Engine [56.09471066808409]
本稿では,3次元領域における画像に対応するセマンティクスを予測し,それを2次元画像に投影してピクセルレベルの理解を実現する手法を提案する。
16のカテゴリから103,450個のキーポイントと8,234個の3Dモデルを含むKeypointNetと呼ばれる大規模キーポイント知識エンジンを構築した。
論文 参考訳(メタデータ) (2021-11-21T13:25:20Z) - KeypointDeformer: Unsupervised 3D Keypoint Discovery for Shape Control [64.46042014759671]
keypointdeformerは、自動検出された3dキーポイントによる形状制御の教師なし方式である。
本手法は, 直観的かつ意味論的に形状変形の制御を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:08Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。