論文の概要: HiFECap: Monocular High-Fidelity and Expressive Capture of Human
Performances
- arxiv url: http://arxiv.org/abs/2210.05665v1
- Date: Tue, 11 Oct 2022 17:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:55:44.231495
- Title: HiFECap: Monocular High-Fidelity and Expressive Capture of Human
Performances
- Title(参考訳): HiFECap: 単分子的高忠実性と人的パフォーマンスの表現的キャプチャ
- Authors: Yue Jiang, Marc Habermann, Vladislav Golyanik, Christian Theobalt
- Abstract要約: HiFECapは、人間のポーズ、衣服、表情、手を1つのRGBビデオから同時にキャプチャする。
また, 衣服のしわの変形など, 従来の方法よりも高精度な高精度な撮影も行なっている。
- 参考スコア(独自算出の注目度): 84.7225785061814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D human performance capture is indispensable for many applications
in computer graphics and vision for enabling immersive experiences. However,
detailed capture of humans requires tracking of multiple aspects, including the
skeletal pose, the dynamic surface, which includes clothing, hand gestures as
well as facial expressions. No existing monocular method allows joint tracking
of all these components. To this end, we propose HiFECap, a new neural human
performance capture approach, which simultaneously captures human pose,
clothing, facial expression, and hands just from a single RGB video. We
demonstrate that our proposed network architecture, the carefully designed
training strategy, and the tight integration of parametric face and hand models
to a template mesh enable the capture of all these individual aspects.
Importantly, our method also captures high-frequency details, such as deforming
wrinkles on the clothes, better than the previous works. Furthermore, we show
that HiFECap outperforms the state-of-the-art human performance capture
approaches qualitatively and quantitatively while for the first time capturing
all aspects of the human.
- Abstract(参考訳): 没入型体験を実現するためには,コンピュータグラフィックスやビジョンの多くの応用において,単眼的3次元ヒューマンパフォーマンスキャプチャが不可欠である。
しかし、人間の詳細な捕獲には、骨格のポーズ、衣服を含む動的表面、手のジェスチャー、表情など、複数の側面の追跡が必要である。
既存の単分子法ではこれら全ての成分の関節追跡ができない。
そこで本研究では,人間のポーズ,服装,表情,手などを単一のrgbビデオから同時にキャプチャする,ニューラルヒューマンパフォーマンスキャプチャ手法であるhifecapを提案する。
提案したネットワークアーキテクチャ,慎重に設計されたトレーニング戦略,テンプレートメッシュへのパラメトリック顔と手モデルの緊密な統合が,これらすべての個々の側面のキャプチャを可能にしていることを実証する。
重要な点として,本手法では,衣類のしわの変形など,従来のものよりも優れた高周波の細部も捉えている。
また、HiFECapは、人間のあらゆる側面を初めて捉えながら、最先端の人間のパフォーマンスキャプチャーアプローチよりも質的に、定量的に優れていることを示す。
関連論文リスト
- MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - GHuNeRF: Generalizable Human NeRF from a Monocular Video [63.741714198481354]
GHuNeRFはモノクロビデオから一般化可能なヒトNeRFモデルを学習する。
広範に使われているZJU-MoCapデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-08-31T09:19:06Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering [34.80975358673563]
本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
論文 参考訳(メタデータ) (2021-09-15T17:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。