論文の概要: Synthetic Training for Monocular Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2010.14036v1
- Date: Tue, 27 Oct 2020 03:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:15:50.279764
- Title: Synthetic Training for Monocular Human Mesh Recovery
- Title(参考訳): 単眼のメッシュ回復のための合成トレーニング
- Authors: Yu Sun and Qian Bao and Wu Liu and Wenpeng Gao and Yili Fu and Chuang
Gan and Tao Mei
- Abstract要約: 本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
- 参考スコア(独自算出の注目度): 100.38109761268639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering 3D human mesh from monocular images is a popular topic in computer
vision and has a wide range of applications. This paper aims to estimate 3D
mesh of multiple body parts (e.g., body, hands) with large-scale differences
from a single RGB image. Existing methods are mostly based on iterative
optimization, which is very time-consuming. We propose to train a single-shot
model to achieve this goal. The main challenge is lacking training data that
have complete 3D annotations of all body parts in 2D images. To solve this
problem, we design a multi-branch framework to disentangle the regression of
different body properties, enabling us to separate each component's training in
a synthetic training manner using unpaired data available. Besides, to
strengthen the generalization ability, most existing methods have used
in-the-wild 2D pose datasets to supervise the estimated 3D pose via 3D-to-2D
projection. However, we observe that the commonly used weak-perspective model
performs poorly in dealing with the external foreshortening effect of camera
projection. Therefore, we propose a depth-to-scale (D2S) projection to
incorporate the depth difference into the projection function to derive
per-joint scale variants for more proper supervision. The proposed method
outperforms previous methods on the CMU Panoptic Studio dataset according to
the evaluation results and achieves comparable results on the Human3.6M body
and STB hand benchmarks. More impressively, the performance in close shot
images gets significantly improved using the proposed D2S projection for weak
supervision, while maintains obvious superiority in computational efficiency.
- Abstract(参考訳): モノクロ画像からの3dヒューマンメッシュの復元は、コンピュータビジョンで人気のあるトピックであり、幅広い応用がある。
本稿では,複数の身体部分(例えば,体,手)の3次元メッシュを,単一のRGB画像との大きな差で推定することを目的とする。
既存の手法は主に反復最適化に基づいており、非常に時間がかかる。
この目標を達成するために,単発モデルを訓練することを提案する。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
この問題を解決するために、異なる身体特性のレグレッションを分散させるマルチブランチ・フレームワークを設計し、不用意なデータを用いて各コンポーネントのトレーニングを合成訓練方法で分離する。
さらに、一般化能力を強化するため、既存の手法では3d-to-2dプロジェクションによる推定3dポーズの監視にin-the-wild 2d poseデータセットを使用している。
しかし, カメラプロジェクションの外部予測効果に対処するには, 一般的に使用される弱視モデルが不十分である。
そこで,より適切な監督を行うために,射影関数に深さ差を組み込んだ深さ-スケール(d2s)投影法を提案する。
提案手法は, cmu panoptic studioデータセットの従来手法を評価結果で上回り, ヒト3.6mボディとstbハンドベンチマークで比較結果を得た。
より印象的なことに、提案したD2Sプロジェクションを用いて、クローズショット画像の性能が大幅に向上し、計算効率の明らかな優位性を維持している。
関連論文リスト
- Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency [0.493599216374976]
本稿では,2次元の教師のみによるトレーニングデータの追加を可能にするために,新たな損失関数であるマルチビュー整合性を提案する。
実験の結果,2つの視点を90度にオフセットすれば良好な性能が得られることがわかった。
本研究は3次元ポーズ推定におけるドメイン適応の新たな可能性を導入し,特定のアプリケーション向けにモデルをカスタマイズするための実用的で費用対効果の高いソリューションを提供する。
論文 参考訳(メタデータ) (2023-11-21T08:21:55Z) - 3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose
Estimation [28.24765523800196]
本研究では,3次元ポーズ推定のための3次元認識型ニューラルボディフィッティング(3DNBF)を提案する。
特に,3次元ポーズ依存特徴ベクトルを出力するガウス楕円体カーネルを用いた人間の体積表現に基づく深部特徴の生成モデルを提案する。
ニューラル特徴は、対照的な学習で訓練され、3D認識となり、2D-3D曖昧さを克服する。
論文 参考訳(メタデータ) (2023-08-19T22:41:00Z) - DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - Optimising 2D Pose Representation: Improve Accuracy, Stability and
Generalisability Within Unsupervised 2D-3D Human Pose Estimation [7.294965109944706]
2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はない。
その結果、2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はないことがわかった。
論文 参考訳(メタデータ) (2022-09-01T17:32:52Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and
Hallucination under Self-supervision [102.48681650013698]
既存の自己監督型3次元ポーズ推定スキームは、学習を導くための弱い監督に大きく依存している。
そこで我々は,2D-3Dのポーズペアを明示的に生成し,監督を増強する,新しい自己監督手法を提案する。
これは、ポーズ推定器とポーズ幻覚器を併用して学習する強化学習ベースの模倣器を導入することで可能となる。
論文 参考訳(メタデータ) (2022-03-29T14:45:53Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows [24.0966076588569]
本稿では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。
我々は、Human3.6MとMPI-INF-3DHPの2つのベンチマークデータセットに対するアプローチを評価し、ほとんどの指標において同等の手法を上回りました。
論文 参考訳(メタデータ) (2021-07-29T07:33:14Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。