論文の概要: Leveraging MoCap Data for Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2110.09243v1
- Date: Mon, 18 Oct 2021 12:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 17:18:12.552112
- Title: Leveraging MoCap Data for Human Mesh Recovery
- Title(参考訳): ヒューマンメッシュ回復のためのMoCapデータの活用
- Authors: Fabien Baradel, Thibault Groueix, Philippe Weinzaepfel, Romain
Br\'egier, Yannis Kalantidis, Gr\'egory Rogez
- Abstract要約: 本研究では,3次元モーションキャプチャ(MoCap)データからのポーズが,画像ベースおよびビデオベースのヒューマンメッシュ回復手法の改善に有効かどうかを検討する。
また,MoCapデータからの合成レンダリングによる微調整画像ベースモデルの性能向上が期待できる。
ポーズパラメータを直接回帰するトランスフォーマーモジュールであるPoseBERTを導入し、マスク付きモデリングでトレーニングする。
- 参考スコア(独自算出の注目度): 27.76352018682937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training state-of-the-art models for human body pose and shape recovery from
images or videos requires datasets with corresponding annotations that are
really hard and expensive to obtain. Our goal in this paper is to study whether
poses from 3D Motion Capture (MoCap) data can be used to improve image-based
and video-based human mesh recovery methods. We find that fine-tune image-based
models with synthetic renderings from MoCap data can increase their
performance, by providing them with a wider variety of poses, textures and
backgrounds. In fact, we show that simply fine-tuning the batch normalization
layers of the model is enough to achieve large gains. We further study the use
of MoCap data for video, and introduce PoseBERT, a transformer module that
directly regresses the pose parameters and is trained via masked modeling. It
is simple, generic and can be plugged on top of any state-of-the-art
image-based model in order to transform it in a video-based model leveraging
temporal information. Our experimental results show that the proposed
approaches reach state-of-the-art performance on various datasets including
3DPW, MPI-INF-3DHP, MuPoTS-3D, MCB and AIST. Test code and models will be
available soon.
- Abstract(参考訳): 人体ポーズや画像やビデオからの形状回復のための最先端モデルのトレーニングには、それに対応するアノテーションを備えたデータセットが必要です。
本研究の目的は、3Dモーションキャプチャ(MoCap)データからのポーズを画像ベースおよびビデオベースのヒューマンメッシュリカバリ手法の改善に利用できるかどうかを検討することである。
MoCapデータから合成レンダリングを施した微調整画像ベースモデルでは,より多様なポーズやテクスチャ,背景を提供することで,パフォーマンスの向上が期待できる。
実際、モデルのバッチ正規化層を微調整するだけで大きな利益が得られることを示す。
さらに,ビデオにおけるmocapデータの利用について検討し,ポーズパラメータを直接レグレッションし,マスクモデリングによってトレーニングするトランスフォーマーモジュールであるposebertを紹介した。
シンプルで汎用的で、時間的情報を活用するビデオベースモデルに変換するために、最先端の画像ベースモデルの上にプラグインすることができる。
実験の結果,提案手法は3DPW, MPI-INF-3DHP, MuPoTS-3D, MCB, AIST など,様々なデータセットの最先端性能に到達していることがわかった。
テストコードとモデルも近く提供される予定だ。
関連論文リスト
- 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-08T00:03:52Z) - PoseBERT: A Generic Transformer Module for Temporal 3D Human Modeling [23.420076136028687]
PoseBERTは3Dモーションキャプチャーデータで完全にトレーニングされたトランスフォーマーモジュールである。
シンプルで汎用的で汎用的で、あらゆるイメージベースモデルの上にプラグインして、ビデオベースモデルで変換することができる。
実験結果から,多種多様なポーズ推定手法上にPoseBERTを追加することにより,常に性能が向上することが確認された。
論文 参考訳(メタデータ) (2022-08-22T11:30:14Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。