論文の概要: Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition
- arxiv url: http://arxiv.org/abs/2211.12368v1
- Date: Tue, 22 Nov 2022 16:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:28:18.247863
- Title: Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition
- Title(参考訳): 音声空間分解によるリアルタイムニューラルラディアンス音声合成
- Authors: Jiaxiang Tang, Kaisiyuan Wang, Hang Zhou, Xiaokang Chen, Dongliang He,
Tianshu Hu, Jingtuo Liu, Gang Zeng, Jingdong Wang
- Abstract要約: 我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
- 参考スコア(独自算出の注目度): 61.6677901687009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While dynamic Neural Radiance Fields (NeRF) have shown success in
high-fidelity 3D modeling of talking portraits, the slow training and inference
speed severely obstruct their potential usage. In this paper, we propose an
efficient NeRF-based framework that enables real-time synthesizing of talking
portraits and faster convergence by leveraging the recent success of grid-based
NeRF. Our key insight is to decompose the inherently high-dimensional talking
portrait representation into three low-dimensional feature grids. Specifically,
a Decomposed Audio-spatial Encoding Module models the dynamic head with a 3D
spatial grid and a 2D audio grid. The torso is handled with another 2D grid in
a lightweight Pseudo-3D Deformable Module. Both modules focus on efficiency
under the premise of good rendering quality. Extensive experiments demonstrate
that our method can generate realistic and audio-lips synchronized talking
portrait videos, while also being highly efficient compared to previous
methods.
- Abstract(参考訳): 動的ニューラルラジアンス場(NeRF)は、高忠実度3次元画像のモデリングに成功しているが、遅いトレーニングと推論速度は、その潜在的な使用を著しく妨げている。
本稿では,近年のグリッドベースNeRFの成功を生かして,音声画像のリアルタイム合成と高速収束を実現する,効率的なNeRFベースのフレームワークを提案する。
我々の重要な洞察は、3つの低次元特徴格子に固有の高次元の人物像を分解することである。
具体的には、分解オーディオ空間符号化モジュールは、3次元空間グリッドと2次元オーディオグリッドを備えたダイナミックヘッドをモデル化する。
胴体は軽量のPseudo-3Dデフォルマブルモジュールで別の2Dグリッドで処理される。
どちらのモジュールも優れたレンダリング品質を前提とした効率にフォーカスしている。
広範にわたる実験により,本手法は従来の手法に比べて高い効率を保ちつつ,写実的かつオーディオリップを同期させた映像を生成できることが実証された。
関連論文リスト
- NLDF: Neural Light Dynamic Fields for Efficient 3D Talking Head Generation [0.0]
高い速度で高品質な3次元発話顔を生成することを目的としたニューラルライトダイナミック・フィールズモデルを提案する。
NLDFは光セグメントに基づいて光フィールドを表現し、深いネットワークを使用して光の全情報を一度に学習する。
提案手法は,3次元音声映像生成における顔光のダイナミクスを効果的に表現し,芸術的NeRF法と比較して約30倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-06-17T06:53:37Z) - NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking
Portrait Synthesis [20.111316792226482]
ER-NeRF(ER-NeRF)は、NeRF(Neural Radiance Fields)をベースとした音声ポートレートアーキテクチャである。
提案手法は,従来の手法と比較して,現実的なディテールと高効率で,高忠実さとオーディオリップを向上する。
論文 参考訳(メタデータ) (2023-07-18T15:07:39Z) - OD-NeRF: Efficient Training of On-the-Fly Dynamic Neural Radiance Fields [63.04781030984006]
ダイナミック・ニューラル・レイディアンス・フィールド(ダイナミック・ニューラル・レイディアンス・フィールド)は、3次元ダイナミック・シーンにおける新しいビュー・シンセサイザーにおいて印象的な結果を示した。
本研究では,ダイナミックシーンのストリーミングが可能な動的NeRFを効率よく訓練・レンダリングするOD-NeRFを提案する。
本アルゴリズムは,6FPSトレーニングと合成動的シーンのレンダリングのインタラクティブな高速化を実現し,実世界の動的シーンの最先端と比較して,大幅なスピードアップを実現している。
論文 参考訳(メタデータ) (2023-05-24T07:36:47Z) - Magic3D: High-Resolution Text-to-3D Content Creation [78.40092800817311]
DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
論文 参考訳(メタデータ) (2022-11-18T18:59:59Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Neural Deformable Voxel Grid for Fast Optimization of Dynamic View
Synthesis [63.25919018001152]
動的シーンを扱うための高速な変形可能な放射場法を提案する。
本手法は訓練に20分しかかからないD-NeRFに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-06-15T17:49:08Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - 3D-aware Image Synthesis via Learning Structural and Textural
Representations [39.681030539374994]
生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しするが、まだ難しい。
近年、GAN(Generative Adversarial Network)とNeRF(Neural Radiance Field)という3次元座標をピクセル値にマッピングする手法が試みられている。
本稿では,構造表現とテクスチャ表現を明示的に学習することで,高忠実度3次元画像合成のための新しいフレームワーク,VolumeGANを提案する。
論文 参考訳(メタデータ) (2021-12-20T18:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。