論文の概要: FrankMocap: A Monocular 3D Whole-Body Pose Estimation System via
Regression and Integration
- arxiv url: http://arxiv.org/abs/2108.06428v1
- Date: Fri, 13 Aug 2021 23:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 11:19:10.718415
- Title: FrankMocap: A Monocular 3D Whole-Body Pose Estimation System via
Regression and Integration
- Title(参考訳): FrankMocap: 回帰と統合による単眼の3D全体像推定システム
- Authors: Yu Rong, Takaaki Shiratori, Hanbyul Joo
- Abstract要約: FrankMocapは、高速で正確な全身3Dポーズ推定システムである。
3Dの顔、手、体を、Wildのモノクル画像から同時に生成できる。
- 参考スコア(独自算出の注目度): 34.70952457495492
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Most existing monocular 3D pose estimation approaches only focus on a single
body part, neglecting the fact that the essential nuance of human motion is
conveyed through a concert of subtle movements of face, hands, and body. In
this paper, we present FrankMocap, a fast and accurate whole-body 3D pose
estimation system that can produce 3D face, hands, and body simultaneously from
in-the-wild monocular images. The core idea of FrankMocap is its modular
design: We first run 3D pose regression methods for face, hands, and body
independently, followed by composing the regression outputs via an integration
module. The separate regression modules allow us to take full advantage of
their state-of-the-art performances without compromising the original accuracy
and reliability in practice. We develop three different integration modules
that trade off between latency and accuracy. All of them are capable of
providing simple yet effective solutions to unify the separate outputs into
seamless whole-body pose estimation results. We quantitatively and
qualitatively demonstrate that our modularized system outperforms both the
optimization-based and end-to-end methods of estimating whole-body pose.
- Abstract(参考訳): 既存のモノラルな3Dポーズのアプローチのほとんどは、顔、手、身体の微妙な動きによって人間の動きの本質的なニュアンスが伝達されるという事実を無視して、単一の身体の部分のみに焦点を当てている。
本稿では,3次元顔,手,身体を同時に生成できる高速かつ高精度な3次元ポーズ推定システムfrankmocapを提案する。
frankmocapの中核となるアイデアはモジュラーデザインです。まず、顔、手、体に対して3dポーズの回帰メソッドを独立して実行し、次に統合モジュールを介して回帰出力を生成します。
別々の回帰モジュールを使うことで、元の正確性と信頼性を損なうことなく、最先端のパフォーマンスを最大限に活用することができます。
レイテンシと精度をトレードオフする3つの異なる統合モジュールを開発しています。
これらすべてが、別々のアウトプットをシームレスな全身ポーズ推定結果に統一する、シンプルで効果的なソリューションを提供することができる。
我々は,モジュール化したシステムが,体全体のポーズを推定する最適化法とエンドツーエンド法の両方を上回っていることを定量的に定性的に証明する。
関連論文リスト
- Towards Robust and Expressive Whole-body Human Pose and Shape Estimation [51.457517178632756]
全体のポーズと形状の推定は、単眼画像から人体全体の異なる振る舞いを共同で予測することを目的としている。
既存の手法では、既存のシナリオの複雑さの下で、しばしば劣化したパフォーマンスを示す。
全身のポーズと形状推定の堅牢性を高める新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-14T08:17:42Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [54.86887812687023]
ほとんどの3D-HPE法は回帰モデルに依存しており、入力と出力の1対1のマッピングを前提としている。
提案するManiPoseは,2次元入力毎に複数の候補3次元ポーズを提案可能な,新しい多様体制約型マルチハイポテーシスモデルである。
従来のマルチハイブリッドアプローチとは異なり、我々のソリューションは完全に教師付きであり、複雑な生成モデルに依存しない。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - Enhanced Spatio-Temporal Context for Temporally Consistent Robust 3D
Human Motion Recovery from Monocular Videos [5.258814754543826]
本稿では,モノクロ映像からの時間的一貫した動き推定手法を提案する。
汎用的なResNetのような機能を使う代わりに、本手法ではボディ認識機能表現と独立したフレーム単位のポーズを使用する。
提案手法は, 高速化誤差を著しく低減し, 既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2023-11-20T10:53:59Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - HandTailor: Towards High-Precision Monocular 3D Hand Recovery [38.339359570898765]
学習ベースのハンドモジュールと最適化ベースのテーラーモジュールを組み合わせることで、単眼RGB画像から高精度なハンドメッシュリカバリを実現します。
提案するハンドモジュールは,1つのネットワークにおける視点投影と弱い視点投影を,精度指向およびワイルドシナリオに向けて統一する。
我々は、HandTailorがいくつかの公開ベンチマークで最先端のパフォーマンスを得られることを実証した。
論文 参考訳(メタデータ) (2021-02-18T09:55:38Z) - Monocular Real-time Full Body Capture with Inter-part Correlations [66.22835689189237]
本稿では,体と手の形状と運動を1色画像から動的3次元顔モデルと共に推定する,実時間フルボディキャプチャの最初の手法を提案する。
提案手法では,体と手の相関を高い計算効率で活用する新しいニューラルネットワークアーキテクチャを用いる。
論文 参考訳(メタデータ) (2020-12-11T02:37:56Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。