論文の概要: Cafca: High-quality Novel View Synthesis of Expressive Faces from Casual Few-shot Captures
- arxiv url: http://arxiv.org/abs/2410.00630v1
- Date: Tue, 1 Oct 2024 12:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:35:05.195534
- Title: Cafca: High-quality Novel View Synthesis of Expressive Faces from Casual Few-shot Captures
- Title(参考訳): Cafca: Casual Few-shot キャプチャーによる表現的顔の高品質新規合成
- Authors: Marcel C. Bühler, Gengyan Li, Erroll Wood, Leonhard Helminger, Xu Chen, Tanmay Shah, Daoye Wang, Stephan Garbin, Sergio Orts-Escolano, Otmar Hilliges, Dmitry Lagun, Jérémy Riviere, Paulo Gotardo, Thabo Beeler, Abhimitra Meka, Kripasindhu Sarkar,
- Abstract要約: 人間の顔に先立って,高忠実度表現型顔のモデリングが可能な新しい容積を提示する。
我々は3D Morphable Face Modelを活用して大規模なトレーニングセットを合成し、それぞれのアイデンティティを異なる表現でレンダリングする。
次に、この合成データセットに先立って条件付きニューラルレージアンスフィールドをトレーニングし、推論時に、モデルを1つの被験者の非常にスパースな実画像のセットで微調整する。
- 参考スコア(独自算出の注目度): 33.463245327698
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Volumetric modeling and neural radiance field representations have revolutionized 3D face capture and photorealistic novel view synthesis. However, these methods often require hundreds of multi-view input images and are thus inapplicable to cases with less than a handful of inputs. We present a novel volumetric prior on human faces that allows for high-fidelity expressive face modeling from as few as three input views captured in the wild. Our key insight is that an implicit prior trained on synthetic data alone can generalize to extremely challenging real-world identities and expressions and render novel views with fine idiosyncratic details like wrinkles and eyelashes. We leverage a 3D Morphable Face Model to synthesize a large training set, rendering each identity with different expressions, hair, clothing, and other assets. We then train a conditional Neural Radiance Field prior on this synthetic dataset and, at inference time, fine-tune the model on a very sparse set of real images of a single subject. On average, the fine-tuning requires only three inputs to cross the synthetic-to-real domain gap. The resulting personalized 3D model reconstructs strong idiosyncratic facial expressions and outperforms the state-of-the-art in high-quality novel view synthesis of faces from sparse inputs in terms of perceptual and photo-metric quality.
- Abstract(参考訳): 体積モデリングとニューラルラディアンス場表現は、3次元顔キャプチャーとフォトリアリスティックな新しいビュー合成に革命をもたらした。
しかし、これらの手法は数百のマルチビュー入力画像を必要とすることが多く、少数の入力しか持たないケースには適用できない。
野生で捉えた3つの入力ビューから高忠実度表現型顔のモデリングを可能にする,人間の顔に先立つ新しいボリュームを提示する。
私たちの重要な洞察は、合成データだけで訓練された暗黙の事前訓練が、極めて困難な現実世界のアイデンティティや表現に一般化し、しわやまつげのような細部を巧みに照らして、斬新なビューを表現できるということです。
3D Morphable Face Modelを活用して、大きなトレーニングセットを合成し、それぞれのアイデンティティを異なる表現、髪、衣服、その他の資産でレンダリングします。
次に、この合成データセットに先立って条件付きニューラルレージアンスフィールドをトレーニングし、推論時に、モデルを1つの被験者の非常にスパースな実画像のセットで微調整する。
平均的な微調整では、3つの入力しか必要とせず、合成ドメインと実ドメインのギャップを渡る。
得られたパーソナライズされた3Dモデルは、強い慣用的な表情を再構成し、知覚的および測光的品質の観点から、スパース入力からの顔合成の高品質な新規なビュー合成において、最先端の表現を上回ります。
関連論文リスト
- Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - Single-Image 3D Human Digitization with Shape-Guided Diffusion [31.99621159464388]
NeRFとその変種は通常、異なる視点からのビデオや画像を必要とする。
単一入力画像から一貫した高解像度の外観を持つ人物の360度映像を生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T18:59:56Z) - Preface: A Data-driven Volumetric Prior for Few-shot Ultra
High-resolution Face Synthesis [0.0]
NeRFは、複雑な外観や毛髪と皮膚の反射効果を含む、人間の顔の非常に現実的な合成を可能にした。
本稿では,前者のトレーニング分布の一部ではない被験者の超高解像度な新しい視点の合成を可能にする,新しいヒューマン・フェイス・プレファレンスを提案する。
論文 参考訳(メタデータ) (2023-09-28T21:21:44Z) - 3DMM-RF: Convolutional Radiance Fields for 3D Face Modeling [111.98096975078158]
本稿では,1つのパスを1つのパスで合成し,必要なニューラルネットワークのレンダリングサンプルのみを合成するスタイルベースの生成ネットワークを提案する。
このモデルは、任意のポーズと照明の顔画像に正確に適合し、顔の特徴を抽出し、制御可能な条件下で顔を再レンダリングするために使用できることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:28:45Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - MPS-NeRF: Generalizable 3D Human Rendering from Multiview Images [32.84481902544513]
本論文は,複数視点画像のみを入力として,トレーニング中に見えない人のための新しいビューと新しいポーズのレンダリングを扱う。
鍵となる要素は、正準NeRFと体積変形スキームを組み合わせた専用表現である。
本手法の有効性を総合的に示すために,新しいビュー合成とアニメーションタスクを用いた実データと合成データの両方の実験を行った。
論文 参考訳(メタデータ) (2022-03-31T08:09:03Z) - Human View Synthesis using a Single Sparse RGB-D Input [16.764379184593256]
本稿では,RGB-Dが疎い単一ビューセンサから取得した映像からリアルなレンダリングを生成するための,新しいビュー合成フレームワークを提案する。
エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
論文 参考訳(メタデータ) (2021-12-27T20:13:53Z) - Neural Actor: Neural Free-view Synthesis of Human Actors with Pose
Control [80.79820002330457]
任意の視点と任意の制御可能なポーズの下での人間の高品質な合成法を提案する。
提案手法は,新しいポーズ合成法と同様に,再生時の最先端技術よりも優れた品質を実現し,トレーニングポーズと大きく異なる新しいポーズを一般化することができる。
論文 参考訳(メタデータ) (2021-06-03T17:40:48Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。