論文の概要: GaussianMotion: End-to-End Learning of Animatable Gaussian Avatars with Pose Guidance from Text
- arxiv url: http://arxiv.org/abs/2502.11642v1
- Date: Mon, 17 Feb 2025 10:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:41.741297
- Title: GaussianMotion: End-to-End Learning of Animatable Gaussian Avatars with Pose Guidance from Text
- Title(参考訳): GaussianMotion: テキストからヒントを得た Animatable Gaussian Avatars のエンドツーエンド学習
- Authors: Gyumin Shim, Sangmin Lee, Jaegul Choo,
- Abstract要約: テキスト記述に整合した完全アニマタブルなシーンを生成する新しいレンダリングモデルを提案する。
本手法は, 変形可能な3次元ガウススプラッティングとテキスト・ツー・3次元スコア蒸留を組み合わせることで, 完全アニマタブルな3次元アバターを生成する。
- 参考スコア(独自算出の注目度): 39.16924298167778
- License:
- Abstract: In this paper, we introduce GaussianMotion, a novel human rendering model that generates fully animatable scenes aligned with textual descriptions using Gaussian Splatting. Although existing methods achieve reasonable text-to-3D generation of human bodies using various 3D representations, they often face limitations in fidelity and efficiency, or primarily focus on static models with limited pose control. In contrast, our method generates fully animatable 3D avatars by combining deformable 3D Gaussian Splatting with text-to-3D score distillation, achieving high fidelity and efficient rendering for arbitrary poses. By densely generating diverse random poses during optimization, our deformable 3D human model learns to capture a wide range of natural motions distilled from a pose-conditioned diffusion model in an end-to-end manner. Furthermore, we propose Adaptive Score Distillation that effectively balances realistic detail and smoothness to achieve optimal 3D results. Experimental results demonstrate that our approach outperforms existing baselines by producing high-quality textures in both static and animated results, and by generating diverse 3D human models from various textual inputs.
- Abstract(参考訳): 本稿では,Gussian Splattingを用いたテキスト記述に整合した完全アニマタブルなシーンを生成する新しいヒューマンレンダリングモデルであるGussianMotionを紹介する。
既存の方法では、様々な3D表現を用いて人間の身体を合理的にテキストから3D生成するが、しばしば忠実さと効率の限界に直面し、主にポーズ制御に制限のある静的モデルに焦点を当てる。
一方,本手法では, 変形可能な3次元ガウススプラッティングとテキスト・ツー・3次元スコア蒸留を組み合わせることで, 任意のポーズに対して高い忠実さと効率的なレンダリングを実現することで, 完全アニマタブルな3次元アバターを生成する。
最適化中に多種多様なランダムなポーズを高密度に生成することにより、変形可能な3次元人間のモデルは、ポーズ条件付き拡散モデルからエンドツーエンドに抽出された幅広い自然な動きを捉えることができる。
さらに,現実的なディテールと滑らかさを効果的にバランスさせて最適な3次元結果を得る適応スコア蒸留法を提案する。
実験により,本手法は,静的およびアニメーションの両方で高品質なテクスチャを生成し,多様なテキスト入力から多種多様な3次元人体モデルを生成することにより,既存のベースラインよりも優れた性能を示すことが示された。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - iHuman: Instant Animatable Digital Humans From Monocular Videos [16.98924995658091]
モノクロビデオからアニマタブルな3Dデジタル人間を作るための,迅速かつシンプルで効果的な方法を提案する。
この研究は、人間の身体の正確な3Dメッシュ型モデリングの必要性を達成し、説明します。
我々の手法は(訓練時間の観点から)最も近い競合相手よりも桁違いに高速である。
論文 参考訳(メタデータ) (2024-07-15T18:51:51Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。
GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文 参考訳(メタデータ) (2023-12-04T18:55:45Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。