論文の概要: VOODOO XP: Expressive One-Shot Head Reenactment for VR Telepresence
- arxiv url: http://arxiv.org/abs/2405.16204v2
- Date: Tue, 28 May 2024 09:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:09:02.697604
- Title: VOODOO XP: Expressive One-Shot Head Reenactment for VR Telepresence
- Title(参考訳): VOODOO XP:VRテレプレゼンスのワンショットヘッド再現
- Authors: Phong Tran, Egor Zakharov, Long-Nhat Ho, Liwen Hu, Adilbek Karmanov, Aviral Agarwal, McLean Goldwhite, Ariana Bermudez Venegas, Anh Tuan Tran, Hao Li,
- Abstract要約: VOODOO XPは、入力ドライバビデオと1枚の2Dポートレートから高表現力の表情を生成することができる、3D対応のワンショットヘッド再現法である。
本稿では,モノクラー映像設定と双方向通信のためのエンドツーエンドVRテレプレゼンスシステムについて述べる。
- 参考スコア(独自算出の注目度): 14.010324388059866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce VOODOO XP: a 3D-aware one-shot head reenactment method that can generate highly expressive facial expressions from any input driver video and a single 2D portrait. Our solution is real-time, view-consistent, and can be instantly used without calibration or fine-tuning. We demonstrate our solution on a monocular video setting and an end-to-end VR telepresence system for two-way communication. Compared to 2D head reenactment methods, 3D-aware approaches aim to preserve the identity of the subject and ensure view-consistent facial geometry for novel camera poses, which makes them suitable for immersive applications. While various facial disentanglement techniques have been introduced, cutting-edge 3D-aware neural reenactment techniques still lack expressiveness and fail to reproduce complex and fine-scale facial expressions. We present a novel cross-reenactment architecture that directly transfers the driver's facial expressions to transformer blocks of the input source's 3D lifting module. We show that highly effective disentanglement is possible using an innovative multi-stage self-supervision approach, which is based on a coarse-to-fine strategy, combined with an explicit face neutralization and 3D lifted frontalization during its initial training stage. We further integrate our novel head reenactment solution into an accessible high-fidelity VR telepresence system, where any person can instantly build a personalized neural head avatar from any photo and bring it to life using the headset. We demonstrate state-of-the-art performance in terms of expressiveness and likeness preservation on a large set of diverse subjects and capture conditions.
- Abstract(参考訳): VOODOO XP: 入力ドライバビデオから高表現力の表情を生成できる3D対応ワンショットヘッド再現法と1枚の2Dポートレートについて紹介する。
我々のソリューションはリアルタイムでビューに一貫性があり、キャリブレーションや微調整なしで即座に利用できます。
我々は,モノクラー映像設定と双方向通信のためのエンドツーエンドVRテレプレゼンスシステムについて実演する。
2次元頭部再現法と比較して、3D認識アプローチは、被写体のアイデンティティを保ち、新しいカメラのポーズに対するビュー一貫性のある顔形状を確保することを目的としており、没入型用途に適している。
様々な顔のゆがみ技術が導入されたが、最先端の3D認識神経再生技術は表現力に欠けており、複雑な顔の表情を再現することができない。
本稿では,ドライバの表情を直接入力源の3Dリフトモジュールのトランスフォーマーブロックに転送する,新しいクロスリファクターアーキテクチャを提案する。
本研究は, 表面中立化と3次元リフトドフロンダル化を併用した, 粗大な戦略を基礎とした, 革新的多段階自己超越的手法を用いて, 高い有効解離が可能であることを示す。
さらに私たちは、新しいヘッド再現ソリューションを高忠実度VRテレプレゼンスシステムに統合し、任意の写真からパーソナライズされたニューラルヘッドアバターを瞬時に構築し、ヘッドセットを使ってそれを生き返らせることができます。
本研究では,多種多様な被写体と捕獲条件の集合に対して,表現性および類似性保存の観点から,最先端の性能を実証する。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot 3D Head
Reenactment [17.372274738231443]
そこで本研究では,ソースの出現とドライバ表現のための,完全に神経の絡み合ったフレームワークをベースとした3D認識型ワンショットヘッド再現手法を提案する。
提案手法はリアルタイムであり,ホログラフィックディスプレイに基づく3次元遠隔会議システムに適した高忠実・高精細な出力を実現する。
論文 参考訳(メタデータ) (2023-12-07T19:19:57Z) - High-fidelity Facial Avatar Reconstruction from Monocular Video with
Generative Priors [29.293166730794606]
そこで本研究では,3次元認識による顔アバターの再構成手法を提案する。
既存の作品と比較すると、優れた新規ビュー合成結果と忠実に再現性能が得られる。
論文 参考訳(メタデータ) (2022-11-28T04:49:46Z) - Dynamic Neural Portraits [58.480811535222834]
フルヘッド再現問題に対する新しいアプローチであるDynamic Neural Portraitsを提案する。
本手法は,頭部ポーズ,表情,視線を明示的に制御し,写実的な映像像を生成する。
実験の結果,提案手法は最近のNeRF法よりも270倍高速であることがわかった。
論文 参考訳(メタデータ) (2022-11-25T10:06:14Z) - Attention based Occlusion Removal for Hybrid Telepresence Systems [5.006086647446482]
本稿では,HMDデクルージョンのための新しいアテンション対応エンコーダデコーダアーキテクチャを提案する。
我々は,最先端手法よりも質的,定量的な結果が優れていることを報告した。
また,既存のアニメーションと3次元顔再構成パイプラインを用いたハイブリッドビデオ会議への本手法の適用について述べる。
論文 参考訳(メタデータ) (2021-12-02T10:18:22Z) - Robust Egocentric Photo-realistic Facial Expression Transfer for Virtual
Reality [68.18446501943585]
ソーシャルな存在は、バーチャルリアリティー(VR)におけるデジタル人間による次世代コミュニケーションシステムを支える
最高の3DビデオリアルVRアバターは、人固有の(PS)モデルに依存します。
本稿では,エンドツーエンドのマルチアイデンティティアーキテクチャを提案することで,これらの制限を克服する。
論文 参考訳(メタデータ) (2021-04-10T15:48:53Z) - Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。
oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文 参考訳(メタデータ) (2021-04-09T23:17:36Z) - HeadGAN: One-shot Neural Head Synthesis and Editing [70.30831163311296]
HeadGANは、3D顔表現を合成し、任意の参照画像の顔形状に適応するシステムです。
3D顔表現により、圧縮と再構築の効率的な方法、表現とポーズ編集のツールとしてさらに使用できるようになります。
論文 参考訳(メタデータ) (2020-12-15T12:51:32Z) - Unmasking Communication Partners: A Low-Cost AI Solution for Digitally
Removing Head-Mounted Displays in VR-Based Telepresence [62.997667081978825]
バーチャルリアリティ(VR)における対面会話は、被験者がヘッドマウントディスプレイ(HMD)を装着する際の課題である
過去の研究では、高コストハードウェアを用いた実験室環境では、VRで個人用アバターを用いた高忠実な顔再構成が可能であることが示されている。
我々は,オープンソース,フリーソフトウェア,安価なハードウェアのみを利用する,このタスクのための最初の低コストシステムを提案する。
論文 参考訳(メタデータ) (2020-11-06T23:17:12Z) - Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。
駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。
我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文 参考訳(メタデータ) (2020-06-17T23:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。