論文の概要: NLDF: Neural Light Dynamic Fields for Efficient 3D Talking Head Generation
- arxiv url: http://arxiv.org/abs/2406.11259v1
- Date: Mon, 17 Jun 2024 06:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:04:29.204242
- Title: NLDF: Neural Light Dynamic Fields for Efficient 3D Talking Head Generation
- Title(参考訳): NLDF:高能率3次元トーキングヘッド生成のためのニューラルライトダイナミックフィールド
- Authors: Niu Guanchen,
- Abstract要約: 高い速度で高品質な3次元発話顔を生成することを目的としたニューラルライトダイナミック・フィールズモデルを提案する。
NLDFは光セグメントに基づいて光フィールドを表現し、深いネットワークを使用して光の全情報を一度に学習する。
提案手法は,3次元音声映像生成における顔光のダイナミクスを効果的に表現し,芸術的NeRF法と比較して約30倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking head generation based on the neural radiation fields model has shown promising visual effects. However, the slow rendering speed of NeRF seriously limits its application, due to the burdensome calculation process over hundreds of sampled points to synthesize one pixel. In this work, a novel Neural Light Dynamic Fields model is proposed aiming to achieve generating high quality 3D talking face with significant speedup. The NLDF represents light fields based on light segments, and a deep network is used to learn the entire light beam's information at once. In learning the knowledge distillation is applied and the NeRF based synthesized result is used to guide the correct coloration of light segments in NLDF. Furthermore, a novel active pool training strategy is proposed to focus on high frequency movements, particularly on the speaker mouth and eyebrows. The propose method effectively represents the facial light dynamics in 3D talking video generation, and it achieves approximately 30 times faster speed compared to state of the art NeRF based method, with comparable generation visual quality.
- Abstract(参考訳): 神経放射場モデルに基づく頭部生成は有望な視覚効果を示した。
しかし、NeRFのレンダリング速度が遅いため、数百点のサンプル点の計算処理で1ピクセルを合成するため、その応用は著しく制限される。
本研究では,高品位な3次元音声を高速に生成することを目的とした,ニューラルライトダイナミックフィールドモデルを提案する。
NLDFは光セグメントに基づいて光フィールドを表現し、深いネットワークを使用して光の全情報を一度に学習する。
学習において、知識蒸留を適用し、NLDFにおける光セグメントの正しい着色を誘導するために、NeRFに基づく合成結果を使用する。
さらに,特に話者の口とまぶたに焦点を合わせるために,新しいアクティブプールトレーニング戦略を提案する。
提案手法は,3次元音声映像生成における顔光のダイナミックスを効果的に表現し,最先端のNeRF方式に比べて約30倍の速さで映像品質に匹敵する。
関連論文リスト
- Magnituder Layers for Implicit Neural Representations in 3D [23.135779936528333]
我々は、"magnituder"と呼ばれる新しいニューラルネットワーク層を導入する。
標準フィードフォワード層にマグニチュードを組み込むことで、推論速度と適応性を向上する。
我々のアプローチは、訓練された暗黙的ニューラル表現モデルにおいてゼロショットのパフォーマンス向上を可能にする。
論文 参考訳(メタデータ) (2024-10-13T08:06:41Z) - Mesh2NeRF: Direct Mesh Supervision for Neural Radiance Field Representation and Generation [51.346733271166926]
Mesh2NeRFは、3次元生成タスクのためのテクスチャメッシュから地上構造放射場を導出するアプローチである。
各種タスクにおけるMesh2NeRFの有効性を検証する。
論文 参考訳(メタデータ) (2024-03-28T11:22:53Z) - Learning Neural Duplex Radiance Fields for Real-Time View Synthesis [33.54507228895688]
本研究では,NeRFを高効率メッシュベースニューラル表現に蒸留・焼成する手法を提案する。
提案手法の有効性と優位性を,各種標準データセットの広範な実験を通じて実証する。
論文 参考訳(メタデータ) (2023-04-20T17:59:52Z) - NeRFMeshing: Distilling Neural Radiance Fields into
Geometrically-Accurate 3D Meshes [56.31855837632735]
我々は、NeRF駆動のアプローチで容易に3次元表面を再構成できるコンパクトで柔軟なアーキテクチャを提案する。
最後の3Dメッシュは物理的に正確で、デバイスアレイ上でリアルタイムでレンダリングできます。
論文 参考訳(メタデータ) (2023-03-16T16:06:03Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z) - Fast Dynamic Radiance Fields with Time-Aware Neural Voxels [106.69049089979433]
タイムアウェアなボクセル特徴を持つシーンを表現し,TiNeuVoxという名前のラジアンスフィールドフレームワークを提案する。
我々のフレームワークは、高いレンダリング品質を維持しながら、動的ラディアンスフィールドの最適化を加速する。
TiNeuVoxは8分と8MBのストレージでトレーニングを完了しています。
論文 参考訳(メタデータ) (2022-05-30T17:47:31Z) - R2L: Distilling Neural Radiance Field to Neural Light Field for
Efficient Novel View Synthesis [76.07010495581535]
一つのピクセルをレンダリングするには、数百回もNeural Radiance Fieldネットワークに問い合わせる必要がある。
NeLFは、新しい視点において、NeRFに対してより直接的な表現を提示する。
ディープNeLFネットワークをうまく学習する鍵は、十分なデータを持つことである。
論文 参考訳(メタデータ) (2022-03-31T17:57:05Z) - Light Field Networks: Neural Scene Representations with
Single-Evaluation Rendering [60.02806355570514]
2次元観察から3Dシーンの表現を推定することは、コンピュータグラフィックス、コンピュータビジョン、人工知能の基本的な問題である。
そこで我々は,360度4次元光場における基礎となる3次元シーンの形状と外観の両面を表現した新しいニューラルシーン表現,光場ネットワーク(LFN)を提案する。
LFNからレイをレンダリングするには*single*ネットワークの評価しか必要としない。
論文 参考訳(メタデータ) (2021-06-04T17:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。