論文の概要: Coherent3D: Coherent 3D Portrait Video Reconstruction via Triplane Fusion
- arxiv url: http://arxiv.org/abs/2412.08684v1
- Date: Wed, 11 Dec 2024 18:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:31:23.813417
- Title: Coherent3D: Coherent 3D Portrait Video Reconstruction via Triplane Fusion
- Title(参考訳): コヒーレント3D:三面体核融合によるコヒーレント3D画像再構成
- Authors: Shengze Wang, Xueting Li, Chao Liu, Matthew Chan, Michael Stengel, Henry Fuchs, Shalini De Mello, Koki Nagano,
- Abstract要約: シングルイメージの3Dポートレートの再構築により、テレプレゼンスシステムは1台のカメラからリアルタイムで3Dのポートレート映像をストリーミングできるようになった。
しかし、フレームごとの3D再構成は時間的不整合を示し、ユーザの外観を忘れる。
本稿では,フレーム単位の入力ビューから動的に出現する参照ビューから,標準3Dを融合することにより,両世界を最大限に活用する新しい融合方式を提案する。
- 参考スコア(独自算出の注目度): 22.185551913099598
- License:
- Abstract: Recent breakthroughs in single-image 3D portrait reconstruction have enabled telepresence systems to stream 3D portrait videos from a single camera in real-time, democratizing telepresence. However, per-frame 3D reconstruction exhibits temporal inconsistency and forgets the user's appearance. On the other hand, self-reenactment methods can render coherent 3D portraits by driving a 3D avatar built from a single reference image, but fail to faithfully preserve the user's per-frame appearance (e.g., instantaneous facial expression and lighting). As a result, none of these two frameworks is an ideal solution for democratized 3D telepresence. In this work, we address this dilemma and propose a novel solution that maintains both coherent identity and dynamic per-frame appearance to enable the best possible realism. To this end, we propose a new fusion-based method that takes the best of both worlds by fusing a canonical 3D prior from a reference view with dynamic appearance from per-frame input views, producing temporally stable 3D videos with faithful reconstruction of the user's per-frame appearance. Trained only using synthetic data produced by an expression-conditioned 3D GAN, our encoder-based method achieves both state-of-the-art 3D reconstruction and temporal consistency on in-studio and in-the-wild datasets. https://research.nvidia.com/labs/amri/projects/coherent3d
- Abstract(参考訳): テレプレゼンスシステムは1台のカメラからリアルタイムで3Dのポートレートビデオをストリーミングし、テレプレゼンスの民主化を実現している。
しかし、フレームごとの3D再構成は時間的不整合を示し、ユーザの外観を忘れる。
一方、自己再現法は、単一の参照画像から構築された3Dアバターを駆動することで、コヒーレントな3D肖像画を描画することができるが、ユーザのフレームごとの外観(即時表情や照明など)を忠実に保存することができない。
結果として、これら2つのフレームワークはいずれも、民主化された3Dテレプレゼンスのための理想的なソリューションではない。
本稿では,このジレンマに対処し,コヒーレントなアイデンティティと動的フレーム単位の外観を両立させて,可能な限りの現実主義を実現する新しいソリューションを提案する。
そこで本研究では,フレーム単位の入力ビューから動的に出現し,時間的に安定な3Dビデオを生成し,フレーム単位の外観を忠実に再現することで,両世界の長所を活かす新しい融合方式を提案する。
表現条件付き3D GANで生成した合成データのみを用いて学習し,最先端の3D再構成と時間的整合性を実現する。
https://research.nvidia.com/labs/amri/projects/coherent3d
関連論文リスト
- ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model [16.14713604672497]
ReconXは、時間生成タスクとして曖昧な再構築課題を再編成する、新しい3Dシーン再構築パラダイムである。
提案したReconXはまずグローバルポイントクラウドを構築し、3D構造条件としてコンテキスト空間にエンコードする。
この条件に導かれ、ビデオ拡散モデルは、ディテール保存され、高い3D一貫性を示すビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-08-29T17:59:40Z) - CAT3D: Create Anything in 3D with Multi-View Diffusion Models [87.80820708758317]
CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。
CAT3Dは1分で3Dシーン全体を作成できる。
論文 参考訳(メタデータ) (2024-05-16T17:59:05Z) - Coherent 3D Portrait Video Reconstruction via Triplane Fusion [21.381482393260406]
フレームごとの3D再構成は時間的不整合を示し、ユーザの外観を忘れる。
フレーム単位の情報に先立ってパーソナライズされた3D被写体を融合する新しいフュージョンベース手法を提案する。
提案手法は,最新の3次元再構成精度と時間的整合性の両方を,インスタディオおよびインザミルドデータセット上で達成する。
論文 参考訳(メタデータ) (2024-05-01T18:08:51Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - SparseFusion: Distilling View-conditioned Diffusion for 3D
Reconstruction [26.165314261806603]
ニューラルレンダリングと確率的画像生成の最近の進歩を統一したスパースビュー3次元再構成手法であるスパースフュージョンを提案する。
既存のアプローチは、通常、再プロジェクションされた機能を持つニューラルレンダリングの上に構築されるが、目に見えない領域を生成したり、大きな視点の変化の下で不確実性に対処できない。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - Appearance-Preserving 3D Convolution for Video-based Person
Re-identification [61.677153482995564]
本稿では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネルの2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。
元の3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
論文 参考訳(メタデータ) (2020-07-16T16:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。