論文の概要: Video-driven Neural Physically-based Facial Asset for Production
- arxiv url: http://arxiv.org/abs/2202.05592v2
- Date: Mon, 14 Feb 2022 07:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 12:46:11.286445
- Title: Video-driven Neural Physically-based Facial Asset for Production
- Title(参考訳): 映像駆動型ニューラルネットワークによる顔アセットの製作
- Authors: Longwen Zhang, Chuxiao Zeng, Qixuan Zhang, Hongyang Lin, Ruixiang Cao,
Wei Yang, Lan Xu, and Jingyi Yu
- Abstract要約: 高品質な物理的資産を持つ動的顔のジオメトリを生成するための,学習に基づく新しいビデオ駆動型アプローチを提案する。
本手法は,従来の映像駆動型顔再構成法やアニメーション法よりも精度が高く,視覚的忠実度が高い。
- 参考スコア(独自算出の注目度): 33.24654834163312
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Production-level workflows for producing convincing 3D dynamic human faces
have long relied on a disarray of labor-intensive tools for geometry and
texture generation, motion capture and rigging, and expression synthesis.
Recent neural approaches automate individual components but the corresponding
latent representations cannot provide artists explicit controls as in
conventional tools. In this paper, we present a new learning-based,
video-driven approach for generating dynamic facial geometries with
high-quality physically-based assets. Two key components are well-structured
latent spaces due to dense temporal samplings from videos and explicit facial
expression controls to regulate the latent spaces. For data collection, we
construct a hybrid multiview-photometric capture stage, coupling with an
ultra-fast video camera to obtain raw 3D facial assets. We then model the
facial expression, geometry and physically-based textures using separate VAEs
with a global MLP-based expression mapping across the latent spaces, to
preserve characteristics across respective attributes while maintaining
explicit controls over geometry and texture. We also introduce to model the
delta information as wrinkle maps for physically-base textures, achieving
high-quality rendering of dynamic textures. We demonstrate our approach in
high-fidelity performer-specific facial capture and cross-identity facial
motion retargeting. In addition, our neural asset along with fast adaptation
schemes can also be deployed to handle in-the-wild videos. Besides, we motivate
the utility of our explicit facial disentangle strategy by providing promising
physically-based editing results like geometry and material editing or winkle
transfer with high realism. Comprehensive experiments show that our technique
provides higher accuracy and visual fidelity than previous video-driven facial
reconstruction and animation methods.
- Abstract(参考訳): 説得力のある3Dダイナミックな顔を作るための生産レベルのワークフローは、幾何学とテクスチャ生成、モーションキャプチャとリギング、および表現合成のための労働集約的なツールの欠如に依存してきた。
最近のニューラルアプローチは個々のコンポーネントを自動化するが、それに対応する潜在表現は、従来のツールのようにアーティストに明示的なコントロールを提供できない。
本稿では,高品質な物理的資産を持つ動的顔形状を生成するための新しい学習ベースビデオ駆動手法を提案する。
2つの重要なコンポーネントは、ビデオからの高密度時間サンプリングと、潜伏空間を規制する明示的な表情制御のため、よく構造化された潜伏空間である。
データ収集のために,超高速ビデオカメラと結合したハイブリッド多視点撮影ステージを構築し,生の3次元顔のアセットを得る。
次に,グローバルなMLP型表現マッピングを用いた別個のVAEを用いて,表情,幾何学,物理的テクスチャをモデル化し,形状やテクスチャの明示的な制御を維持しつつ,各属性の特徴を保存する。
また, 動的テクスチャの高品質なレンダリングを実現するため, デルタ情報を物理ベーステクスチャのリンクルマップとしてモデル化する。
我々は,高忠実度パフォーマー特異的顔キャプチャーとクロスアイデンティティ顔の動き再ターゲティングのアプローチを実証する。
さらに、私たちのニューラルアセットと高速な適応スキームは、Wildの動画を扱うためにも利用できます。
さらに, 形状, 素材編集, ウィンクル転送などの身体的編集結果が, 高いリアリズムで提供されることにより, 明示的な顔の異方性戦略の有用性をモチベーションとしている。
包括的実験により,従来のビデオ駆動顔面再建法やアニメーション法よりも高い精度と視覚的忠実度が得られた。
関連論文リスト
- VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。
前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文 参考訳(メタデータ) (2024-05-26T13:36:45Z) - FaceFolds: Meshed Radiance Manifolds for Efficient Volumetric Rendering of Dynamic Faces [21.946327323788275]
動的顔の3Dレンダリングは難しい問題である。
本稿では,アクターの動的顔パフォーマンスの高品質なレンダリングを可能にする新しい表現を提案する。
論文 参考訳(メタデータ) (2024-04-22T00:44:13Z) - Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis [31.90503003079933]
我々は、ニューラルネットワークによる明示的な動的メッシュをエンコードする新しいハイブリッド表現であるDynamic Tetrahedra(DynTet)を紹介する。
以前の研究と比較すると、DynTetは様々なメトリクスに従って忠実さ、唇の同期、リアルタイムのパフォーマンスを著しく改善している。
論文 参考訳(メタデータ) (2024-02-27T09:56:15Z) - StyleFaceV: Face Video Generation via Decomposing and Recomposing
Pretrained StyleGAN3 [43.43545400625567]
そこで我々は,鮮明な動きを持つ高忠実度ID保存顔ビデオを生成するStyleFaceVというフレームワークを提案する。
我々の中核となる洞察は、外観を分解し、情報を合成し、それらをStyleGAN3の潜在空間に再分解することで、安定的でダイナミックな結果を生み出すことである。
論文 参考訳(メタデータ) (2022-08-16T17:47:03Z) - Neural Actor: Neural Free-view Synthesis of Human Actors with Pose
Control [80.79820002330457]
任意の視点と任意の制御可能なポーズの下での人間の高品質な合成法を提案する。
提案手法は,新しいポーズ合成法と同様に,再生時の最先端技術よりも優れた品質を実現し,トレーニングポーズと大きく異なる新しいポーズを一般化することができる。
論文 参考訳(メタデータ) (2021-06-03T17:40:48Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - Fast-GANFIT: Generative Adversarial Network for High Fidelity 3D Face
Reconstruction [76.1612334630256]
我々は、GAN(Generative Adversarial Networks)とDCNN(Deep Convolutional Neural Networks)の力を利用して、単一画像から顔のテクスチャと形状を再構築する。
3次元顔再構成を保存したフォトリアリスティックでアイデンティティに優れた結果を示し, 初めて, 高精度な顔テクスチャ再構成を実現する。
論文 参考訳(メタデータ) (2021-05-16T16:35:44Z) - Real-time Deep Dynamic Characters [95.5592405831368]
本研究では,高度にリアルな形状,動き,ダイナミックな外観を示す3次元人物モデルを提案する。
我々は,新しいグラフ畳み込みネットワークアーキテクチャを用いて,身体と衣服の運動依存的変形学習を実現する。
本モデルでは, 運動依存的表面変形, 物理的に妥当な動的衣服変形, および映像現実的表面テクスチャを, 従来よりも細部まで高レベルに生成することを示す。
論文 参考訳(メタデータ) (2021-05-04T23:28:55Z) - Dynamic Facial Asset and Rig Generation from a Single Scan [17.202189917030033]
高品質な動的顔アセットの自動生成のための枠組みを提案する。
筆者らのフレームワークは1つのスキャンを入力とし,2次顔成分だけでなく,個別化された混ざり合い,動的および物理的テクスチャを生成する。
論文 参考訳(メタデータ) (2020-10-01T17:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。