論文の概要: Reality's Canvas, Language's Brush: Crafting 3D Avatars from Monocular Video
- arxiv url: http://arxiv.org/abs/2312.04784v2
- Date: Sun, 24 Mar 2024 13:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:15:55.003618
- Title: Reality's Canvas, Language's Brush: Crafting 3D Avatars from Monocular Video
- Title(参考訳): モノクロ映像から3Dアバターを作る
- Authors: Yuchen Rao, Eduardo Perez Pellitero, Benjamin Busam, Yiren Zhou, Jifei Song,
- Abstract要約: ReCaLaBは、単一のRGBビデオから高忠実な3Dアバターを学習するパイプラインだ。
ポーズ条件のNeRFは、人間の対象を標準的T目的で容積的に表現するように最適化される。
これにより、画像条件付き拡散モデルにより、3Dアバターの外観とポーズをアニメーション化し、これまで見えなかった人間の動きを伴う映像シーケンスを作成することができる。
- 参考スコア(独自算出の注目度): 14.140380599168628
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in 3D avatar generation excel with multi-view supervision for photorealistic models. However, monocular counterparts lag in quality despite broader applicability. We propose ReCaLaB to close this gap. ReCaLaB is a fully-differentiable pipeline that learns high-fidelity 3D human avatars from just a single RGB video. A pose-conditioned deformable NeRF is optimized to volumetrically represent a human subject in canonical T-pose. The canonical representation is then leveraged to efficiently associate neural textures using 2D-3D correspondences. This enables the separation of diffused color generation and lighting correction branches that jointly compose an RGB prediction. The design allows to control intermediate results for human pose, body shape, texture, and lighting with text prompts. An image-conditioned diffusion model thereby helps to animate appearance and pose of the 3D avatar to create video sequences with previously unseen human motion. Extensive experiments show that ReCaLaB outperforms previous monocular approaches in terms of image quality for image synthesis tasks. Moreover, natural language offers an intuitive user interface for creative manipulation of 3D human avatars.
- Abstract(参考訳): フォトリアリスティックモデルのための多視点監視による3次元アバター生成の最近の進歩
しかし、モノラルなものは適用性は広いものの、品質が低下している。
このギャップを埋めるためにReCaLaBを提案する。
ReCaLaBは、単一のRGBビデオから高忠実な3Dアバターを学習する、完全に微分可能なパイプラインである。
ポーズ条件付き変形可能なNeRFは、標準T位置において人間の被写体を体積的に表現するように最適化される。
次に、標準表現を利用して、2D-3D対応を用いて神経テクスチャを効率的に関連付ける。
これにより、RGB予測を共同で構成する拡散色生成と照明補正枝の分離が可能になる。
このデザインは、人間のポーズ、体の形、テクスチャ、そしてテキストプロンプトによる照明の中間結果を制御できる。
これにより、画像条件付き拡散モデルにより、3Dアバターの外観とポーズがアニメーション化され、これまで見えなかった人間の動きを伴う映像シーケンスが生成される。
大規模な実験により、ReCaLaBは画像合成タスクにおける画像品質の観点から、以前の単分子的アプローチよりも優れていることが示された。
さらに、自然言語は3D人間のアバターを創造的に操作するための直感的なユーザーインタフェースを提供する。
関連論文リスト
- 3D$^2$-Actor: Learning Pose-Conditioned 3D-Aware Denoiser for Realistic Gaussian Avatar Modeling [37.11454674584874]
ポーズ条件付き3D対応ヒューマンモデリングパイプラインである3D$2$-Actorを導入する。
実験により、3D$2$-アクターは高忠実度アバターモデリングにおいて優れ、新しいポーズに頑健に一般化することを示した。
論文 参考訳(メタデータ) (2024-12-16T09:37:52Z) - Human-3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models [29.73743772971411]
人間の3次元拡散: 明示的な3次元連続拡散による現実的なアバター創造を提案する。
我々の重要な洞察は、2次元多視点拡散と3次元再構成モデルが相互に補完情報を提供するということである。
提案するフレームワークは,最先端の手法より優れ,単一のRGB画像から現実的なアバターを作成することができる。
論文 参考訳(メタデータ) (2024-06-12T17:57:25Z) - NECA: Neural Customizable Human Avatar [36.69012172745299]
モノクラービデオやスパースビュービデオから多目的な人間の表現を学習する手法であるNECAを紹介する。
我々のアプローチの中核は、補完的な双対空間で人間を表現し、幾何学、アルベド、シャドー、および外部照明の非絡み合った神経場を予測することである。
論文 参考訳(メタデータ) (2024-03-15T14:23:06Z) - UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with Authenticity Guided Textures [80.047065473698]
幾何学の忠実度を高めたUltrAvatarと呼ばれる新しい3次元アバター生成手法を提案し,光を必要とせずに物理ベースレンダリング(PBR)テクスチャの質を向上する。
提案手法の有効性とロバスト性を実証し,実験において最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-01-20T01:55:17Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - PointAvatar: Deformable Point-based Head Avatars from Videos [103.43941945044294]
PointAvatarは変形可能な点ベースの表現で、原色を固有アルベドと正規依存シェーディングに分解する。
提案手法は,複数の音源からのモノクロビデオを用いて,アニマタブルな3Dアバターを生成することができることを示す。
論文 参考訳(メタデータ) (2022-12-16T10:05:31Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - High-fidelity Face Tracking for AR/VR via Deep Lighting Adaptation [117.32310997522394]
3Dビデオアバターは、圧縮、プライバシー、エンターテイメント、AR/VRにおける存在感を提供することで、仮想コミュニケーションを強化することができる。
既存の人物固有の3dモデルは照明に頑健ではないため、その結果は通常微妙な顔の振る舞いを見逃し、アバターにアーティファクトを引き起こす。
本論文では,高品質の3D顔追跡アルゴリズムを組み合わせたディープラーニング照明モデルを用いて,通常の映像から3Dフォトリアリズムアバターへの微妙かつ堅牢な顔の動き伝達手法を提案する。
論文 参考訳(メタデータ) (2021-03-29T18:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。