論文の概要: Look Ma, no markers: holistic performance capture without the hassle
- arxiv url: http://arxiv.org/abs/2410.11520v1
- Date: Tue, 15 Oct 2024 11:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:08.949734
- Title: Look Ma, no markers: holistic performance capture without the hassle
- Title(参考訳): Ma, no markers: 問題なく総合的なパフォーマンスキャプチャー
- Authors: Charlie Hewitt, Fatemeh Saleh, Sadegh Aliakbarian, Lohit Petikam, Shideh Rezaeifar, Louis Florentin, Zafiirah Hosenie, Thomas J Cashman, Julien Valentin, Darren Cosker, Tadas Baltrusaitis,
- Abstract要約: 我々は,顔,体,手に対する高精度で総合的なパフォーマンスキャプチャの課題を同時に解決する。
目と舌を含む完全な人体をマーカーフリーで高品質に再現する最初の手法を紹介した。
我々は、合成データと人間の形状と動きの強力なパラメトリックモデルにのみ訓練された機械学習モデルを活用するハイブリッドアプローチによってこれを達成した。
- 参考スコア(独自算出の注目度): 16.853519702262613
- License:
- Abstract: We tackle the problem of highly-accurate, holistic performance capture for the face, body and hands simultaneously. Motion-capture technologies used in film and game production typically focus only on face, body or hand capture independently, involve complex and expensive hardware and a high degree of manual intervention from skilled operators. While machine-learning-based approaches exist to overcome these problems, they usually only support a single camera, often operate on a single part of the body, do not produce precise world-space results, and rarely generalize outside specific contexts. In this work, we introduce the first technique for marker-free, high-quality reconstruction of the complete human body, including eyes and tongue, without requiring any calibration, manual intervention or custom hardware. Our approach produces stable world-space results from arbitrary camera rigs as well as supporting varied capture environments and clothing. We achieve this through a hybrid approach that leverages machine learning models trained exclusively on synthetic data and powerful parametric models of human shape and motion. We evaluate our method on a number of body, face and hand reconstruction benchmarks and demonstrate state-of-the-art results that generalize on diverse datasets.
- Abstract(参考訳): 我々は,顔,体,手に対する高精度で総合的なパフォーマンスキャプチャの課題を同時に解決する。
映画やゲームで使用されるモーションキャプチャ技術は、通常、顔、身体、手の動きのみに焦点を合わせ、複雑で高価なハードウェアと熟練したオペレーターによる高度な手動介入を含む。
機械学習に基づくアプローチはこれらの問題を解決するために存在するが、通常は1台のカメラしかサポートせず、しばしば身体の1つの部分で動作し、正確な世界空間の結果が得られず、特定のコンテキストの外で一般化されることは滅多にない。
本研究は,目と舌を含む全身のマーカーフリーで高品質な再現を行うための最初の技術であり,校正,手動操作,カスタムハードウェアを必要としない。
提案手法は,任意のカメラリグから安定した世界空間を生成できるとともに,様々な捕獲環境や衣服をサポートする。
我々は、合成データと人間の形状と動きの強力なパラメトリックモデルにのみ訓練された機械学習モデルを活用するハイブリッドアプローチによってこれを達成した。
身体, 顔, 手の再建のベンチマークを用いて本手法の評価を行い, 多様なデータセットを一般化する最先端の結果を実証した。
関連論文リスト
- Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation [27.206656215734295]
本稿では,DVQ-VAE(Decomposed Vector-Quantized Variational Autoencoder)を提案する。
部分認識の分解アーキテクチャは、手とオブジェクトの各コンポーネント間のインタラクションをより正確に管理するのに役立つ。
提案モデルでは,4つのベンチマークにおいて,最先端の手法と比較して,品質指標の14.1%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-07-19T06:41:16Z) - WHAC: World-grounded Humans and Cameras [37.877565981937586]
我々は,表現的パラメトリック人間モデル(SMPL-X)と対応するカメラのポーズを共同で再現することを目指している。
WHACと呼ばれる新しいフレームワークを導入し、世界規模で表現された人間のポーズと形状の推定を容易にする。
我々は、正確に注釈付けされた人間とカメラを含む新しい合成データセットWHAC-A-Moleを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:58:02Z) - Egocentric Whole-Body Motion Capture with FisheyeViT and Diffusion-Based
Motion Refinement [65.08165593201437]
本研究では,人体と手の動きを同時に推定する単一魚眼カメラを用いて,自我中心型全体モーションキャプチャーを探索する。
この課題は、高品質なデータセットの欠如、魚眼カメラの歪み、人間の身体の自己閉塞など、重大な課題を提起する。
そこで本研究では,魚眼画像の特徴を3次元人体ポーズ予測のための3次元熱マップ表現に変換した魚眼画像の特徴を抽出する手法を提案する。
論文 参考訳(メタデータ) (2023-11-28T07:13:47Z) - VINECS: Video-based Neural Character Skinning [82.39776643541383]
ポーズ依存のスキン重みを持つ完全リップ文字を作成するための完全自動アプローチを提案する。
提案手法は高密度4Dスキャンに頼らず,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T08:35:53Z) - EasyHeC: Accurate and Automatic Hand-eye Calibration via Differentiable
Rendering and Space Exploration [49.90228618894857]
我々は、マーカーレスでホワイトボックスであり、より優れた精度とロバスト性を提供するEasyHeCと呼ばれる手眼校正の新しいアプローチを導入する。
我々は,2つの重要な技術 – レンダリングベースのカメラポーズの最適化と整合性に基づく共同空間探索 – を利用することを提案する。
本評価は,合成および実世界のデータセットにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-02T03:49:54Z) - HiFECap: Monocular High-Fidelity and Expressive Capture of Human
Performances [84.7225785061814]
HiFECapは、人間のポーズ、衣服、表情、手を1つのRGBビデオから同時にキャプチャする。
また, 衣服のしわの変形など, 従来の方法よりも高精度な高精度な撮影も行なっている。
論文 参考訳(メタデータ) (2022-10-11T17:57:45Z) - Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。
本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。
さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文 参考訳(メタデータ) (2022-10-07T15:31:37Z) - Monocular Real-time Full Body Capture with Inter-part Correlations [66.22835689189237]
本稿では,体と手の形状と運動を1色画像から動的3次元顔モデルと共に推定する,実時間フルボディキャプチャの最初の手法を提案する。
提案手法では,体と手の相関を高い計算効率で活用する新しいニューラルネットワークアーキテクチャを用いる。
論文 参考訳(メタデータ) (2020-12-11T02:37:56Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。