論文の概要: Coarse-to-fine Animal Pose and Shape Estimation
- arxiv url: http://arxiv.org/abs/2111.08176v1
- Date: Tue, 16 Nov 2021 01:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 14:08:26.271728
- Title: Coarse-to-fine Animal Pose and Shape Estimation
- Title(参考訳): 粗大動物ポースと形状推定
- Authors: Chen Li and Gim Hee Lee
- Abstract要約: 単一画像から3次元動物メッシュを再構成する粗大なアプローチを提案する。
粗い推定段階はまずSMALモデルのポーズ、形状、翻訳パラメータを推定する。
次に、推定メッシュをグラフ畳み込みネットワーク(GCN)によって開始点として使用し、精製段階における頂点毎の変形を予測する。
- 参考スコア(独自算出の注目度): 67.39635503744395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing animal pose and shape estimation approaches reconstruct animal
meshes with a parametric SMAL model. This is because the low-dimensional pose
and shape parameters of the SMAL model makes it easier for deep networks to
learn the high-dimensional animal meshes. However, the SMAL model is learned
from scans of toy animals with limited pose and shape variations, and thus may
not be able to represent highly varying real animals well. This may result in
poor fittings of the estimated meshes to the 2D evidences, e.g. 2D keypoints or
silhouettes. To mitigate this problem, we propose a coarse-to-fine approach to
reconstruct 3D animal mesh from a single image. The coarse estimation stage
first estimates the pose, shape and translation parameters of the SMAL model.
The estimated meshes are then used as a starting point by a graph convolutional
network (GCN) to predict a per-vertex deformation in the refinement stage. This
combination of SMAL-based and vertex-based representations benefits from both
parametric and non-parametric representations. We design our mesh refinement
GCN (MRGCN) as an encoder-decoder structure with hierarchical feature
representations to overcome the limited receptive field of traditional GCNs.
Moreover, we observe that the global image feature used by existing animal mesh
reconstruction works is unable to capture detailed shape information for mesh
refinement. We thus introduce a local feature extractor to retrieve a
vertex-level feature and use it together with the global feature as the input
of the MRGCN. We test our approach on the StanfordExtra dataset and achieve
state-of-the-art results. Furthermore, we test the generalization capacity of
our approach on the Animal Pose and BADJA datasets. Our code is available at
the project website.
- Abstract(参考訳): 既存の動物のポーズと形状推定手法のほとんどは、パラメトリックSMALモデルを用いて動物のメッシュを再構築する。
これは、smalモデルの低次元のポーズと形状パラメータにより、ディープネットワークが高次元の動物のメッシュを簡単に学習できるためである。
しかし、SMALモデルは、ポーズや形状の変化が限られているおもちゃの動物のスキャンから学習され、非常に多様な実際の動物を表現できない可能性がある。
これは、2Dキーポイントやシルエットのような2Dエビデンスに対する推定メッシュの適合性の悪い結果をもたらす可能性がある。
この問題を軽減するために,単一画像から3D動物メッシュを再構築する粗大なアプローチを提案する。
粗い推定段階は、まず、smalモデルのポーズ、形状、および翻訳パラメータを推定する。
次に、推定メッシュをグラフ畳み込みネットワーク(GCN)によって開始点として使用し、精製段階における頂点毎の変形を予測する。
このSMALベースの表現と頂点ベースの表現の組み合わせは、パラメトリック表現と非パラメトリック表現の両方から恩恵を受ける。
我々は,従来のGCNの限られた受容領域を克服するために,階層的な特徴表現を持つエンコーダデコーダ構造としてメッシュリファインメントGCN(MRGCN)を設計する。
さらに,既存の動物メッシュ再構築作業で使用されているグローバルな画像特徴は,メッシュ改質のための詳細な形状情報を取得することができない。
そこで我々は,局所特徴抽出器を導入して頂点レベルの特徴を抽出し,MRGCNの入力としてグローバル特徴と併用する。
我々はStanfordExtraデータセットでアプローチを検証し、最先端の結果を得る。
さらに,動物のポーズとbadjaデータセットに対するアプローチの一般化能力をテストする。
私たちのコードはプロジェクトのWebサイトで利用可能です。
関連論文リスト
- Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration [2.814748676983944]
局所球面ユークリッド3次元等分散特性をSE(3)メッセージパッシングに基づく伝搬により埋め込んだグラフニューラルネットワークモデルを提案する。
我々のモデルは、主に記述モジュール、同変グラフ層、類似性、最終的な回帰層から構成される。
3DMatchおよびKITTIデータセットで行った実験は、最先端のアプローチと比較して、我々のモデルの魅力的で堅牢な性能を示している。
論文 参考訳(メタデータ) (2024-10-08T06:48:01Z) - Animal Avatars: Reconstructing Animatable 3D Animals from Casual Videos [26.65191922949358]
モノクロビデオからアニマタブルな犬用アバターを構築する方法を提案する。
動物は様々な(予測不可能な)非剛体運動を示し、外観の詳細を持っているため、これは難しい。
我々は,動物のポーズの変化と外観を共同で解決する4Dソリューションを用いて,映像フレームをリンクする手法を開発した。
論文 参考訳(メタデータ) (2024-03-25T18:41:43Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Neural Capture of Animatable 3D Human from Monocular Video [38.974181971541846]
本稿では,モノクラービデオ入力からアニマタブルな3次元人間の表現を構築するための新しいパラダイムを提案する。
本手法は,メッシュをベースとしたパラメトリックな3次元人体モデルを用いた動的ニューラルレージアンス場(NeRF)に基づく。
論文 参考訳(メタデータ) (2022-08-18T09:20:48Z) - Adversarial Parametric Pose Prior [106.12437086990853]
我々は、SMPLパラメータを現実的なポーズを生成する値に制限する事前学習を行う。
得られた先行学習は実データ分布の多様性をカバーし、2次元キーポイントからの3次元再構成の最適化を容易にし、画像からの回帰に使用する場合のポーズ推定精度を向上することを示す。
論文 参考訳(メタデータ) (2021-12-08T10:05:32Z) - A Lightweight Graph Transformer Network for Human Mesh Reconstruction
from 2D Human Pose [8.816462200869445]
GTRSは2次元の人間のポーズから人間のメッシュを再構築する。
我々は、Human3.6Mと3DPWデータセットの広範囲な評価により、GTRSの効率性と一般化を実証する。
論文 参考訳(メタデータ) (2021-11-24T18:48:03Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - Learning Deformable Tetrahedral Meshes for 3D Reconstruction [78.0514377738632]
学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。
ニューラル3D再構成に関するこれまでの研究は、利点だけでなく、ポイントクラウド、ボクセル、サーフェスメッシュ、暗黙の関数表現といった制限も示していた。
Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。
論文 参考訳(メタデータ) (2020-11-03T02:57:01Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z) - Shape Prior Deformation for Categorical 6D Object Pose and Size
Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。
本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-16T16:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。