論文の概要: Text-based Animatable 3D Avatars with Morphable Model Alignment
- arxiv url: http://arxiv.org/abs/2504.15835v1
- Date: Tue, 22 Apr 2025 12:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:30:30.243224
- Title: Text-based Animatable 3D Avatars with Morphable Model Alignment
- Title(参考訳): 定型モデルアライメントを用いたテキストベースアニマタブル3次元アバター
- Authors: Yiqian Wu, Malte Prinzler, Xiaogang Jin, Siyu Tang,
- Abstract要約: テキストベースのリアルなアニマタブル3DGSアバター生成のための新しいフレームワークAnim3Dを提案する。
提案手法は,合成品質,アライメント,アニメーションの忠実度の観点から,既存の手法よりも優れている。
- 参考スコア(独自算出の注目度): 19.523681764512357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generation of high-quality, animatable 3D head avatars from text has enormous potential in content creation applications such as games, movies, and embodied virtual assistants. Current text-to-3D generation methods typically combine parametric head models with 2D diffusion models using score distillation sampling to produce 3D-consistent results. However, they struggle to synthesize realistic details and suffer from misalignments between the appearance and the driving parametric model, resulting in unnatural animation results. We discovered that these limitations stem from ambiguities in the 2D diffusion predictions during 3D avatar distillation, specifically: i) the avatar's appearance and geometry is underconstrained by the text input, and ii) the semantic alignment between the predictions and the parametric head model is insufficient because the diffusion model alone cannot incorporate information from the parametric model. In this work, we propose a novel framework, AnimPortrait3D, for text-based realistic animatable 3DGS avatar generation with morphable model alignment, and introduce two key strategies to address these challenges. First, we tackle appearance and geometry ambiguities by utilizing prior information from a pretrained text-to-3D model to initialize a 3D avatar with robust appearance, geometry, and rigging relationships to the morphable model. Second, we refine the initial 3D avatar for dynamic expressions using a ControlNet that is conditioned on semantic and normal maps of the morphable model to ensure accurate alignment. As a result, our method outperforms existing approaches in terms of synthesis quality, alignment, and animation fidelity. Our experiments show that the proposed method advances the state of the art in text-based, animatable 3D head avatar generation.
- Abstract(参考訳): 高品質でアニマタブルな3Dヘッドアバターをテキストから生成することは、ゲームや映画、エンボディされたバーチャルアシスタントなどのコンテンツ制作アプリケーションにおいて、大きな可能性を秘めている。
現在のテキスト・ツー・3D生成法は、通常、パラメトリックヘッドモデルと2次元拡散モデルを組み合わせる。
しかし、彼らは現実的な詳細を合成するのに苦労し、外観と駆動パラメトリックモデルとの相違に悩まされ、不自然なアニメーション結果をもたらす。
これらの制限は、3次元アバター蒸留における2次元拡散予測の曖昧さに起因していることがわかった。
一 アバターの外観及び形状がテキスト入力によって制約されていないこと。
二 拡散モデルだけでパラメトリックモデルからの情報を取り込むことができないため、予測とパラメトリックヘッドモデルのセマンティックアライメントは不十分である。
本研究では,テキストベースのリアルなアニマタブル3DGSアバター生成のための新しいフレームワークAnimPortrait3Dを提案する。
まず、事前訓練されたテキスト・ツー・3Dモデルからの事前情報を利用して、頑健な外観、幾何学、および変形可能なモデルとの関係性を持つ3Dアバターを初期化する。
第2に,形態素モデルのセマンティックマップと正規マップに条件付き制御ネットを用いて,動的表現のための初期3次元アバターを改良し,正確なアライメントを確保する。
その結果,本手法は,合成品質,アライメント,アニメーションの忠実度の観点から,既存の手法よりも優れていた。
実験により,本手法はテキストベースでアニマタブルな3次元アバター生成における最先端の手法を推し進めることを示す。
関連論文リスト
- En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - TADA! Text to Animatable Digital Avatars [57.52707683788961]
TADAはテキスト記述を取り込み、高品質な幾何学とライフスタイルのテクスチャを備えた表現力のある3Dアバターを生産する。
我々は3次元変位とテクスチャマップを備えたSMPL-Xから最適化可能な高分解能ボディモデルを導出した。
我々は、生成した文字の正規表現とRGB画像をレンダリングし、SDSトレーニングプロセスにおけるそれらの潜伏埋め込みを利用する。
論文 参考訳(メタデータ) (2023-08-21T17:59:10Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。