論文の概要: Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking
Portrait Synthesis
- arxiv url: http://arxiv.org/abs/2307.09323v2
- Date: Thu, 24 Aug 2023 11:25:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 17:17:58.657912
- Title: Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking
Portrait Synthesis
- Title(参考訳): 高忠実性トーキング・ポートレート合成のための効率的な領域認識ニューラルラジアンスフィールド
- Authors: Jiahe Li, Jiawei Zhang, Xiao Bai, Jun Zhou, Lin Gu
- Abstract要約: ER-NeRF(ER-NeRF)は、NeRF(Neural Radiance Fields)をベースとした音声ポートレートアーキテクチャである。
提案手法は,従来の手法と比較して,現実的なディテールと高効率で,高忠実さとオーディオリップを向上する。
- 参考スコア(独自算出の注目度): 20.111316792226482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents ER-NeRF, a novel conditional Neural Radiance Fields
(NeRF) based architecture for talking portrait synthesis that can concurrently
achieve fast convergence, real-time rendering, and state-of-the-art performance
with small model size. Our idea is to explicitly exploit the unequal
contribution of spatial regions to guide talking portrait modeling.
Specifically, to improve the accuracy of dynamic head reconstruction, a compact
and expressive NeRF-based Tri-Plane Hash Representation is introduced by
pruning empty spatial regions with three planar hash encoders. For speech
audio, we propose a Region Attention Module to generate region-aware condition
feature via an attention mechanism. Different from existing methods that
utilize an MLP-based encoder to learn the cross-modal relation implicitly, the
attention mechanism builds an explicit connection between audio features and
spatial regions to capture the priors of local motions. Moreover, a direct and
fast Adaptive Pose Encoding is introduced to optimize the head-torso separation
problem by mapping the complex transformation of the head pose into spatial
coordinates. Extensive experiments demonstrate that our method renders better
high-fidelity and audio-lips synchronized talking portrait videos, with
realistic details and high efficiency compared to previous methods.
- Abstract(参考訳): 本稿では,高速収束,リアルタイムレンダリング,モデルサイズの少ない最先端性能を同時に達成できる,新たな条件付きニューラルネットワークラミアンスフィールド(nerf)ベースのトーキングポートレート合成アーキテクチャであるer-nerfを提案する。
我々の考えは、空間領域の不平等な寄与を明示的に活用し、話し言葉のポートレートモデリングをガイドすることである。
具体的には、3つの平面ハッシュエンコーダで空の空間領域をプルーニングすることで、コンパクトで表現性の高いNeRFベースのTri-Plane Hash Representationを導入する。
音声音声に対して,注意機構により領域認識条件を生成できる領域注意モジュールを提案する。
MLPベースのエンコーダを用いて暗黙的にクロスモーダル関係を学習する既存の方法とは異なり、アテンションメカニズムは音声特徴と空間領域との明示的な接続を構築し、局所的な動きの先行を捉える。
さらに,頭部ポーズの複素変換を空間座標にマッピングすることにより,頭部-トルソ分離問題を最適化するために,直接かつ高速に適応的なポーズ符号化を導入する。
広範にわたる実験により,従来の手法に比べて高精細で高効率で,高忠実度とオーディオリップの同期性が向上することを実証した。
関連論文リスト
- Hi-Map: Hierarchical Factorized Radiance Field for High-Fidelity
Monocular Dense Mapping [51.739466714312805]
ニューラルラジアンス場(NeRF)に基づく新しいモノクリン高密度マッピング手法であるHi-Mapを導入する。
ハイマップは、RGB入力のみを用いた効率的かつ高忠実なマッピングを実現する能力において例外的である。
論文 参考訳(メタデータ) (2024-01-06T12:32:25Z) - PNeRFLoc: Visual Localization with Point-based Neural Radiance Fields [54.8553158441296]
統一された点ベース表現に基づく新しい視覚的ローカライゼーションフレームワーク PNeRFLoc を提案する。
一方、PNeRFLocは2次元特徴点と3次元特徴点をマッチングして初期ポーズ推定をサポートする。
一方、レンダリングベースの最適化を用いた新しいビュー合成によるポーズ改善も実現している。
論文 参考訳(メタデータ) (2023-12-17T08:30:00Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for
Enhanced Indoor View Synthesis [51.49008959209671]
本稿では,室内ビュー合成の品質と効率を高めるために,ボリューム表現を活用する新しいアプローチであるVoxNeRFを紹介する。
我々は,空間的特徴を適応的に捉えるためにマルチレゾリューション・ハッシュ・グリッドを使用し,室内シーンの閉塞や複雑な形状を効果的に管理する。
我々は,3つの屋内データセットに対するアプローチを検証するとともに,VoxNeRFが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-11-09T11:32:49Z) - DT-NeRF: Decomposed Triplane-Hash Neural Radiance Fields for
High-Fidelity Talking Portrait Synthesis [15.674126345649913]
本稿では,三面体ハッシュ型ニューラルラジアンスフィールド(DT-NeRF)フレームワークについて述べる。
本アーキテクチャでは,顔領域を2つの特殊三葉機に分解し,その1つは口の表現に特化し,もう1つはより広い顔の特徴に特化している。
論文 参考訳(メタデータ) (2023-09-14T14:39:05Z) - Grid-guided Neural Radiance Fields for Large Urban Scenes [146.06368329445857]
近年のアプローチでは、シーンを地理的に分割し、複数のサブNeRFを採用して各領域を個別にモデル化する手法が提案されている。
もう一つの解決策は、計算効率が良く、大きなシーンに自然にスケールできる機能グリッド表現を使用することである。
本稿では,大規模都市における高忠実度レンダリングを実現し,計算効率を向上する枠組みを提案する。
論文 参考訳(メタデータ) (2023-03-24T13:56:45Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。