論文の概要: Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation
- arxiv url: http://arxiv.org/abs/2201.07786v1
- Date: Wed, 19 Jan 2022 18:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 15:23:09.215497
- Title: Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation
- Title(参考訳): 意味認識によるニューラルオーディオ駆動映像画像生成
- Authors: Xian Liu, Yinghao Xu, Qianyi Wu, Hang Zhou, Wayne Wu, Bolei Zhou
- Abstract要約: 我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
- 参考スコア(独自算出の注目度): 61.8546794105462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animating high-fidelity video portrait with speech audio is crucial for
virtual reality and digital entertainment. While most previous studies rely on
accurate explicit structural information, recent works explore the implicit
scene representation of Neural Radiance Fields (NeRF) for realistic generation.
In order to capture the inconsistent motions as well as the semantic difference
between human head and torso, some work models them via two individual sets of
NeRF, leading to unnatural results. In this work, we propose Semantic-aware
Speaking Portrait NeRF (SSP-NeRF), which creates delicate audio-driven
portraits using one unified set of NeRF. The proposed model can handle the
detailed local facial semantics and the global head-torso relationship through
two semantic-aware modules. Specifically, we first propose a Semantic-Aware
Dynamic Ray Sampling module with an additional parsing branch that facilitates
audio-driven volume rendering. Moreover, to enable portrait rendering in one
unified neural radiance field, a Torso Deformation module is designed to
stabilize the large-scale non-rigid torso motions. Extensive evaluations
demonstrate that our proposed approach renders more realistic video portraits
compared to previous methods. Project page:
https://alvinliu0.github.io/projects/SSP-NeRF
- Abstract(参考訳): バーチャルリアリティーとデジタルエンターテイメントにとって、高忠実度ビデオポートレートを音声でアニメーションすることは不可欠である。
これまでのほとんどの研究は、正確な明示的な構造情報に依存しているが、最近の研究は、現実的な生成のための神経放射場(nerf)の暗黙的なシーン表現を探求している。
不整合運動と人間の頭と胴体の間の意味的差異を捉えるために、いくつかの研究は2つの個別のNeRFを通してそれらをモデル化し、不自然な結果をもたらす。
本稿では,一組のnerfを用いて繊細な音声駆動ポートレートを生成する意味認識型スポーキング・ポートレート・nerf(ssp-nerf)を提案する。
提案モデルは,2つのセマンティクス・アウェアモジュールを通じて,詳細な局所的セマンティクスとグローバルヘッド・トーソ関係を処理できる。
具体的には,音響駆動ボリュームレンダリングを容易にする構文解析ブランチを付加した,意味認識型動的レイサンプリングモジュールを提案する。
さらに、1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは大規模な非剛性胴体運動を安定させるように設計されている。
提案手法は,従来の手法に比べてよりリアルな映像を再現できることを示す。
プロジェクトページ:https://alvinliu0.github.io/projects/SSP-NeRF
関連論文リスト
- AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head
Synthesis [42.203900183584665]
本稿ではAE-NeRF(Audio Enhanced Neural Radiance Field)を提案する。
AE-NeRFは、限られたトレーニングセットやトレーニングイテレーションであっても、画像の忠実さ、オーディオ-リップ同期、一般化能力の最先端を超越している。
論文 参考訳(メタデータ) (2023-12-18T04:14:38Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z) - Reconstructing Personalized Semantic Facial NeRF Models From Monocular
Video [27.36067360218281]
本稿では,ニューラルラディアンスフィールドで定義された人間の頭部のセマンティックモデルを提案する。
3D一貫性ヘッドモデルは、不整合と解釈可能な基底の集合で構成され、低次元の表現係数で駆動することができる。
短い単眼のRGB動画を入力として,本手法では10分から20分で被験者の顔のNeRFモデルを構築することができる。
論文 参考訳(メタデータ) (2022-10-12T11:56:52Z) - Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis [90.43371339871105]
音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
論文 参考訳(メタデータ) (2022-07-24T16:46:03Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。