論文の概要: VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot 3D Head
Reenactment
- arxiv url: http://arxiv.org/abs/2312.04651v1
- Date: Thu, 7 Dec 2023 19:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 17:32:34.951576
- Title: VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot 3D Head
Reenactment
- Title(参考訳): VOODOO 3D : ワンショット3Dヘッド再生のためのボリュームポートレート・アンタングルメント
- Authors: Phong Tran, Egor Zakharov, Long-Nhat Ho, Anh Tuan Tran, Liwen Hu, Hao
Li
- Abstract要約: そこで本研究では,ソースの出現とドライバ表現のための,完全に神経の絡み合ったフレームワークをベースとした3D認識型ワンショットヘッド再現手法を提案する。
提案手法はリアルタイムであり,ホログラフィックディスプレイに基づく3次元遠隔会議システムに適した高忠実・高精細な出力を実現する。
- 参考スコア(独自算出の注目度): 17.372274738231443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a 3D-aware one-shot head reenactment method based on a fully
volumetric neural disentanglement framework for source appearance and driver
expressions. Our method is real-time and produces high-fidelity and
view-consistent output, suitable for 3D teleconferencing systems based on
holographic displays. Existing cutting-edge 3D-aware reenactment methods often
use neural radiance fields or 3D meshes to produce view-consistent appearance
encoding, but, at the same time, they rely on linear face models, such as 3DMM,
to achieve its disentanglement with facial expressions. As a result, their
reenactment results often exhibit identity leakage from the driver or have
unnatural expressions. To address these problems, we propose a neural
self-supervised disentanglement approach that lifts both the source image and
driver video frame into a shared 3D volumetric representation based on
tri-planes. This representation can then be freely manipulated with expression
tri-planes extracted from the driving images and rendered from an arbitrary
view using neural radiance fields. We achieve this disentanglement via
self-supervised learning on a large in-the-wild video dataset. We further
introduce a highly effective fine-tuning approach to improve the
generalizability of the 3D lifting using the same real-world data. We
demonstrate state-of-the-art performance on a wide range of datasets, and also
showcase high-quality 3D-aware head reenactment on highly challenging and
diverse subjects, including non-frontal head poses and complex expressions for
both source and driver.
- Abstract(参考訳): 本稿では,音源の出現とドライバ表現のための全容積型ニューラル・ディスタングルメント・フレームワークに基づく3次元認識型ワンショット頭部再現法を提案する。
提案手法はリアルタイムであり,ホログラフィックディスプレイに基づく3次元遠隔会議システムに適した高忠実・高精細な出力を実現する。
既存の切削エッジ3dウェア再現法は、しばしば神経放射野や3dメッシュを使用してビュー一貫性のある外観エンコーディングを生成するが、同時に3dmmのような線形顔モデルに依存し、表情との絡み合いを達成する。
その結果、その再現結果はしばしば運転者から身元を漏らしたり、不自然な表現をしたりする。
そこで本研究では,ソース画像とドライバ映像の両方を3次元平面に基づく共有3次元ボリューム表現へ持ち上げる神経自己教師付き不等角化手法を提案する。
この表現は、駆動画像から抽出された表現三面体で自由に操作でき、ニューラル放射場を用いて任意のビューから描画できる。
我々は,大規模な映像データセットを用いた自己教師型学習により,この歪みを実現する。
さらに,同じ実世界データを用いた3次元昇降の一般化性を向上させるため,高精度な微調整手法を提案する。
幅広いデータセットで最先端のパフォーマンスを示すとともに,非正面頭部ポーズやソースとドライバの両方の複雑な表現を含む,高度に挑戦的で多様な被験者に対する高品質な3d認識頭部再現例を示す。
関連論文リスト
- VOODOO XP: Expressive One-Shot Head Reenactment for VR Telepresence [14.010324388059866]
VOODOO XPは、入力ドライバビデオと1枚の2Dポートレートから高表現力の表情を生成することができる、3D対応のワンショットヘッド再現法である。
本稿では,モノクラー映像設定と双方向通信のためのエンドツーエンドVRテレプレゼンスシステムについて述べる。
論文 参考訳(メタデータ) (2024-05-25T12:33:40Z) - NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Learning Personalized High Quality Volumetric Head Avatars from
Monocular RGB Videos [47.94545609011594]
本研究では,野生で撮影されたモノクロRGBビデオから高品質な3次元頭部アバターを学習する方法を提案する。
我々のハイブリッドパイプラインは、3DMMの幾何学的先行と動的追跡とニューラルラディアンス場を組み合わせることで、きめ細かい制御とフォトリアリズムを実現する。
論文 参考訳(メタデータ) (2023-04-04T01:10:04Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control [54.079327030892244]
Free-HeadGANは、人為的なニューラルトーキングヘッド合成システムである。
本研究では,3次元顔のランドマークが不足している顔のモデリングが,最先端の生成性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-03T16:46:08Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。