論文の概要: 3D$^2$-Actor: Learning Pose-Conditioned 3D-Aware Denoiser for Realistic Gaussian Avatar Modeling
- arxiv url: http://arxiv.org/abs/2412.11599v1
- Date: Mon, 16 Dec 2024 09:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:55.705144
- Title: 3D$^2$-Actor: Learning Pose-Conditioned 3D-Aware Denoiser for Realistic Gaussian Avatar Modeling
- Title(参考訳): 3D$^2$-ctor: Realistic Gaussian Avatar ModelingのためのPose-Conditioned 3D-Aware Denoiserの学習
- Authors: Zichen Tang, Hongyu Yang, Hanchen Zhang, Jiaxin Chen, Di Huang,
- Abstract要約: ポーズ条件付き3D対応ヒューマンモデリングパイプラインである3D$2$-Actorを導入する。
実験により、3D$2$-アクターは高忠実度アバターモデリングにおいて優れ、新しいポーズに頑健に一般化することを示した。
- 参考スコア(独自算出の注目度): 37.11454674584874
- License:
- Abstract: Advancements in neural implicit representations and differentiable rendering have markedly improved the ability to learn animatable 3D avatars from sparse multi-view RGB videos. However, current methods that map observation space to canonical space often face challenges in capturing pose-dependent details and generalizing to novel poses. While diffusion models have demonstrated remarkable zero-shot capabilities in 2D image generation, their potential for creating animatable 3D avatars from 2D inputs remains underexplored. In this work, we introduce 3D$^2$-Actor, a novel approach featuring a pose-conditioned 3D-aware human modeling pipeline that integrates iterative 2D denoising and 3D rectifying steps. The 2D denoiser, guided by pose cues, generates detailed multi-view images that provide the rich feature set necessary for high-fidelity 3D reconstruction and pose rendering. Complementing this, our Gaussian-based 3D rectifier renders images with enhanced 3D consistency through a two-stage projection strategy and a novel local coordinate representation. Additionally, we propose an innovative sampling strategy to ensure smooth temporal continuity across frames in video synthesis. Our method effectively addresses the limitations of traditional numerical solutions in handling ill-posed mappings, producing realistic and animatable 3D human avatars. Experimental results demonstrate that 3D$^2$-Actor excels in high-fidelity avatar modeling and robustly generalizes to novel poses. Code is available at: https://github.com/silence-tang/GaussianActor.
- Abstract(参考訳): ニューラル暗黙の表現と差別化可能なレンダリングの進歩は、スパースなマルチビューRGBビデオからアニマタブルな3Dアバターを学習する能力を著しく改善した。
しかし、観測空間を標準空間にマッピングする現在の手法は、しばしばポーズ依存の詳細を捉え、新しいポーズに一般化する際の課題に直面している。
拡散モデルは2次元画像生成において顕著なゼロショット機能を示したが、2次元入力からアニマタブルな3Dアバターを作成する可能性はまだ未定である。
本稿では3D$^2$-Actorについて紹介する。これはポーズ条件付き3D対応人体モデリングパイプラインを特徴とする新しいアプローチで、反復的な2D復調と3D修正のステップを統合する。
ポーズキューでガイドされた2Dデノイザは、高忠実度3D再構成とポーズレンダリングに必要なリッチな特徴セットを提供する詳細なマルチビュー画像を生成する。
これを補完するため,ガウス式3次元整流器では,2段階の投影戦略と新しい局所座標表現により3次元整合性を向上した画像を描画する。
さらに,ビデオ合成におけるフレーム間のスムーズな時間的連続性を確保するための,革新的なサンプリング戦略を提案する。
提案手法は, 従来の数値解の限界に効果的に対処し, 現実的でアニマタブルな3次元アバターを製作する。
実験により、3D$^2$-アクターは高忠実度アバターモデリングにおいて優れ、新しいポーズに頑健に一般化することを示した。
コードは、https://github.com/silence-tang/GaussianActor.comで入手できる。
関連論文リスト
- AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction [26.82525451095629]
本稿では,不整合画像の3次元再構成のためのロバストな手法を提案し,推論中のリアルタイムレンダリングを実現する。
再建問題を4次元課題として再検討し, 4次元ガウススプラッティングを用いた効率的な3次元モデリング手法を提案する。
実験により,本手法は3次元人体アバターの光実写・リアルタイムアニメーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:55:39Z) - DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - Human-3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models [29.73743772971411]
人間の3次元拡散: 明示的な3次元連続拡散による現実的なアバター創造を提案する。
我々の重要な洞察は、2次元多視点拡散と3次元再構成モデルが相互に補完情報を提供するということである。
提案するフレームワークは,最先端の手法より優れ,単一のRGB画像から現実的なアバターを作成することができる。
論文 参考訳(メタデータ) (2024-06-12T17:57:25Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。
本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。
提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文 参考訳(メタデータ) (2023-05-03T17:56:24Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。