論文の概要: GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion
- arxiv url: http://arxiv.org/abs/2412.10209v1
- Date: Fri, 13 Dec 2024 15:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:35.927704
- Title: GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion
- Title(参考訳): GAF:多視点拡散による単眼ビデオからのガウスアバター再構成
- Authors: Jiapeng Tang, Davide Davoli, Tobias Kirschstein, Liam Schoneveld, Matthias Niessner,
- Abstract要約: 記録からの光リアルな3D頭部アバター再構成は、観測が限られているため困難である。
複数視点の頭部拡散モデルを導入し,その先行特性を利用して,欠落した領域を埋め,視界の整合性を確保する。
本研究では,コモディティデバイスで撮影したモノクローナルビデオから高忠実度アバターを復元した。
- 参考スコア(独自算出の注目度): 5.49003371165534
- License:
- Abstract: We propose a novel approach for reconstructing animatable 3D Gaussian avatars from monocular videos captured by commodity devices like smartphones. Photorealistic 3D head avatar reconstruction from such recordings is challenging due to limited observations, which leaves unobserved regions under-constrained and can lead to artifacts in novel views. To address this problem, we introduce a multi-view head diffusion model, leveraging its priors to fill in missing regions and ensure view consistency in Gaussian splatting renderings. To enable precise viewpoint control, we use normal maps rendered from FLAME-based head reconstruction, which provides pixel-aligned inductive biases. We also condition the diffusion model on VAE features extracted from the input image to preserve details of facial identity and appearance. For Gaussian avatar reconstruction, we distill multi-view diffusion priors by using iteratively denoised images as pseudo-ground truths, effectively mitigating over-saturation issues. To further improve photorealism, we apply latent upsampling to refine the denoised latent before decoding it into an image. We evaluate our method on the NeRSemble dataset, showing that GAF outperforms the previous state-of-the-art methods in novel view synthesis by a 5.34\% higher SSIM score. Furthermore, we demonstrate higher-fidelity avatar reconstructions from monocular videos captured on commodity devices.
- Abstract(参考訳): 本稿では,スマートフォンなどのコモディティ機器で撮影したモノクロ映像から,アニマタブルな3Dガウスアバターを再構成する手法を提案する。
このような記録からの光現実的な3D頭部アバターの再構築は、観測が限られており、未観測領域が制約下にあり、新しい視点でアーティファクトに繋がる可能性があるため、困難である。
この問題に対処するため,複数ビューのヘッド拡散モデルを導入し,先行する領域を補うとともに,ガウススティングレンダリングにおけるビューの整合性を確保する。
高精度な視点制御を実現するために,FLAME を用いた頭部再構成による正規写像を用い,画素配向の帰納バイアスを与える。
また,入力画像から抽出したVAE特徴の拡散モデルを条件として,顔の同一性や外観の詳細な情報を保持する。
ガウスアバターの再構成では, 繰り返し復号された画像を擬似的真実として用い, 過飽和問題を効果的に軽減し, 多視点拡散先行を蒸留する。
光リアリズムをさらに改善するため、画像に復号する前に遅延アップサンプリングを適用して復号化を洗練させる。
我々は,提案手法をNeRSembleデータセット上で評価し,GAFが新しいビュー合成における従来の最先端手法よりも5.34\%高いSSIMスコアで優れていたことを示す。
さらに,コモディティデバイスで撮影したモノクラービデオから高忠実度アバターを復元した。
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - Generalizable and Animatable Gaussian Head Avatar [50.34788590904843]
本稿では,GAGAvatar(Generalizable and Animatable Gaussian Head Avatar)を提案する。
我々は、1つの前方通過で1つの画像から3次元ガウスのパラメータを生成する。
提案手法は, 従来の手法と比較して, 再現性や表現精度の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-10T14:29:00Z) - LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors [34.91966359570867]
スパースビューの再構築は本質的に不適切であり、制約を受けていない。
本稿では,限られた画像から高品質な再構成を生成できるLM-Gaussianを紹介する。
提案手法は,従来の3DGS法と比較してデータ取得要求を大幅に削減する。
論文 参考訳(メタデータ) (2024-09-05T12:09:02Z) - NPGA: Neural Parametric Gaussian Avatars [46.52887358194364]
マルチビュー映像記録から高忠実度制御可能なアバターを作成するためのデータ駆動方式を提案する。
我々は,高効率なレンダリングのための3次元ガウススプラッティングの手法を構築し,点雲のトポロジカルな柔軟性を継承する。
提案手法をNeRSembleデータセット上で評価し,NPGAが従来の自己再現タスクの2.6PSNRよりも有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-05-29T17:58:09Z) - HR Human: Modeling Human Avatars with Triangular Mesh and High-Resolution Textures from Videos [52.23323966700072]
本研究では,モノクロ映像から高精細な物理材料テクスチャとメッシュを付加したアバターの取得のための枠組みを提案する。
本手法では,モノクロ映像からの情報を組み合わせて仮想多視点画像の合成を行う新しい情報融合方式を提案する。
実験により, 提案手法は, 高忠実度で従来の表現よりも優れており, この明示的な結果は共通三角形への展開をサポートすることが示された。
論文 参考訳(メタデータ) (2024-05-18T11:49:09Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - High-fidelity Facial Avatar Reconstruction from Monocular Video with
Generative Priors [29.293166730794606]
そこで本研究では,3次元認識による顔アバターの再構成手法を提案する。
既存の作品と比較すると、優れた新規ビュー合成結果と忠実に再現性能が得られる。
論文 参考訳(メタデータ) (2022-11-28T04:49:46Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。