論文の概要: TeRA: Rethinking Text-driven Realistic 3D Avatar Generation
- arxiv url: http://arxiv.org/abs/2509.02466v1
- Date: Tue, 02 Sep 2025 16:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.099135
- Title: TeRA: Rethinking Text-driven Realistic 3D Avatar Generation
- Title(参考訳): テキスト駆動のリアルな3Dアバター「TeRA」
- Authors: Yanwen Wang, Yiyu Zhuang, Jiawei Zhang, Li Wang, Yifei Zeng, Xun Cao, Xinxin Zuo, Hao Zhu,
- Abstract要約: TeRAは従来のSDSベースのモデルや一般的な3D生成モデルよりも効率的で効果的なフレームワークである。
このアプローチでは,ネイティブな3Dアバター生成モデルを学ぶための2段階のトレーニング戦略を採用している。
従来のテキスト・アバター生成モデルよりも主観的・客観的評価において,本手法が優れていることが実証された。
- 参考スコア(独自算出の注目度): 33.93081373817039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we rethink text-to-avatar generative models by proposing TeRA, a more efficient and effective framework than the previous SDS-based models and general large 3D generative models. Our approach employs a two-stage training strategy for learning a native 3D avatar generative model. Initially, we distill a decoder to derive a structured latent space from a large human reconstruction model. Subsequently, a text-controlled latent diffusion model is trained to generate photorealistic 3D human avatars within this latent space. TeRA enhances the model performance by eliminating slow iterative optimization and enables text-based partial customization through a structured 3D human representation. Experiments have proven our approach's superiority over previous text-to-avatar generative models in subjective and objective evaluation.
- Abstract(参考訳): 本稿では,従来のSDSモデルや一般的な大規模3D生成モデルよりも効率的で効率的なフレームワークであるTeRAを提案することで,テキストからアバター生成モデルを再考する。
このアプローチでは,ネイティブな3Dアバター生成モデルを学ぶための2段階のトレーニング戦略を採用している。
まずデコーダを蒸留し、大規模な人体再構成モデルから構造付き潜伏空間を導出する。
その後、テキスト制御された潜伏拡散モデルを用いて、この潜伏空間内でフォトリアリスティックな3次元アバターを生成する。
TeRAは、遅い反復最適化を排除し、構造化された3次元人体表現によるテキストベースの部分的カスタマイズを可能にすることにより、モデル性能を向上させる。
従来のテキスト・アバター生成モデルよりも主観的・客観的評価において,本手法が優れていることが実証された。
関連論文リスト
- Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance [69.9745497000557]
本稿では,人間の顔の基盤モデルを用いた最初のSDSベースの手法であるArc2Avatarについて述べる。
我々のアバターは人間の顔メッシュテンプレートとの密接な対応を維持しており、ブレンドシェープによる表現生成を可能にしている。
論文 参考訳(メタデータ) (2025-01-09T17:04:33Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity
3D Avatar Generation [103.88928334431786]
高品質な3Dアバターを製作するための新しい手法を提案する。
データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。
提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T13:09:21Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。