論文の概要: Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2402.17364v1
- Date: Tue, 27 Feb 2024 09:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:51:11.482804
- Title: Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis
- Title(参考訳): 高品質音声頭部合成のための学習動的テトラヘドラ
- Authors: Zicheng Zhang, Ruobing Zheng, Ziwen Liu, Congying Han, Tianqi Li, Meng
Wang, Tiande Guo, Jingdong Chen, Bonan Li, Ming Yang
- Abstract要約: 我々は、ニューラルネットワークによる明示的な動的メッシュをエンコードする新しいハイブリッド表現であるDynamic Tetrahedra(DynTet)を紹介する。
以前の研究と比較すると、DynTetは様々なメトリクスに従って忠実さ、唇の同期、リアルタイムのパフォーマンスを著しく改善している。
- 参考スコア(独自算出の注目度): 31.90503003079933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works in implicit representations, such as Neural Radiance Fields
(NeRF), have advanced the generation of realistic and animatable head avatars
from video sequences. These implicit methods are still confronted by visual
artifacts and jitters, since the lack of explicit geometric constraints poses a
fundamental challenge in accurately modeling complex facial deformations. In
this paper, we introduce Dynamic Tetrahedra (DynTet), a novel hybrid
representation that encodes explicit dynamic meshes by neural networks to
ensure geometric consistency across various motions and viewpoints. DynTet is
parameterized by the coordinate-based networks which learn signed distance,
deformation, and material texture, anchoring the training data into a
predefined tetrahedra grid. Leveraging Marching Tetrahedra, DynTet efficiently
decodes textured meshes with a consistent topology, enabling fast rendering
through a differentiable rasterizer and supervision via a pixel loss. To
enhance training efficiency, we incorporate classical 3D Morphable Models to
facilitate geometry learning and define a canonical space for simplifying
texture learning. These advantages are readily achievable owing to the
effective geometric representation employed in DynTet. Compared with prior
works, DynTet demonstrates significant improvements in fidelity, lip
synchronization, and real-time performance according to various metrics. Beyond
producing stable and visually appealing synthesis videos, our method also
outputs the dynamic meshes which is promising to enable many emerging
applications.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(Neural Radiance Fields、NeRF)のような暗黙の表現における最近の研究は、ビデオシーケンスから現実的でアニマタブルな頭部アバターの生成を進歩させている。
明示的な幾何学的制約の欠如は、複雑な顔の変形を正確にモデル化する上で根本的な課題となる。
本稿では、ニューラルネットワークによる明示的な動的メッシュを符号化し、様々な動きや視点の幾何的整合性を確保する新しいハイブリッド表現であるDynamic Tetrahedra(DynTet)を紹介する。
DynTetは、符号付き距離、変形、材料テクスチャを学習し、トレーニングデータを予め定義されたテトラヘドラグリッドに固定する座標ベースのネットワークによってパラメータ化される。
マーチング・テトラヘドラを利用することで、DynTetはテクスチャメッシュを一貫したトポロジで効率的にデコードし、異なるラスタライザによる高速レンダリングとピクセルロスによる監督を可能にする。
学習効率を向上させるため,テクスチャ学習を簡略化するための標準空間の定義と,幾何学的学習を容易にするために古典的な3Dモーフィブルモデルを組み込んだ。
これらの利点は、DynTetで使われる効果的な幾何学的表現によって容易に達成できる。
以前の作品と比較すると、dyntetはさまざまなメトリクスによる忠実度、唇の同期、リアルタイムパフォーマンスの大幅な改善を示している。
安定して視覚的に魅力的な合成ビデオを生成するだけでなく、多くの新興アプリケーションを可能にすることを約束する動的メッシュも出力する。
関連論文リスト
- FaceFolds: Meshed Radiance Manifolds for Efficient Volumetric Rendering of Dynamic Faces [21.946327323788275]
動的顔の3Dレンダリングは難しい問題である。
本稿では,アクターの動的顔パフォーマンスの高品質なレンダリングを可能にする新しい表現を提案する。
論文 参考訳(メタデータ) (2024-04-22T00:44:13Z) - High-Quality Mesh Blendshape Generation from Face Videos via Neural Inverse Rendering [15.009484906668737]
メッシュをベースとしたブレンドシェイプリグを,シングルあるいはスパースなマルチビュービデオから再構成する新しい手法を提案する。
実験により,シングルあるいはスパースなマルチビュービデオのフレキシブルな入力により,パーソナライズされた高忠実度ブレンドサップを再構築することを示した。
論文 参考訳(メタデータ) (2024-01-16T14:41:31Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - DeVRF: Fast Deformable Voxel Radiance Fields for Dynamic Scenes [27.37830742693236]
本稿では,動的放射場を高速に学習するための新しい表現であるDeVRFを提案する。
実験により、DeVRFはオンパー高忠実度の結果で2桁のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2022-05-31T12:13:54Z) - Video-driven Neural Physically-based Facial Asset for Production [33.24654834163312]
高品質な物理的資産を持つ動的顔のジオメトリを生成するための,学習に基づく新しいビデオ駆動型アプローチを提案する。
本手法は,従来の映像駆動型顔再構成法やアニメーション法よりも精度が高く,視覚的忠実度が高い。
論文 参考訳(メタデータ) (2022-02-11T13:22:48Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。