論文の概要: Dream3DAvatar: Text-Controlled 3D Avatar Reconstruction from a Single Image
- arxiv url: http://arxiv.org/abs/2509.13013v1
- Date: Tue, 16 Sep 2025 12:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.078677
- Title: Dream3DAvatar: Text-Controlled 3D Avatar Reconstruction from a Single Image
- Title(参考訳): Dream3DAvatar:1枚の画像からテキスト変換された3Dアバター
- Authors: Gaofeng Liu, Hengsen Li, Ruoyu Gao, Xuetong Li, Zhiyuan Ma, Tao Fang,
- Abstract要約: 本研究では,3次元アバター生成のためのテキスト制御可能なフレームワークであるDream3DAvatarを提案する。
最初の段階では、軽量でアダプタに強化されたマルチビュー生成モデルを開発する。
顔のアイデンティティを維持するために,高解像度の顔特徴を生成プロセスに注入するID-Adapter-Gを組み込んだ。
第2段階では,マルチビュー機能融合モジュールを備えたフィードフォワードトランスモデルを設計する。
- 参考スコア(独自算出の注目度): 14.987896655951774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of 3D representation techniques and generative models, substantial progress has been made in reconstructing full-body 3D avatars from a single image. However, this task remains fundamentally ill-posedness due to the limited information available from monocular input, making it difficult to control the geometry and texture of occluded regions during generation. To address these challenges, we redesign the reconstruction pipeline and propose Dream3DAvatar, an efficient and text-controllable two-stage framework for 3D avatar generation. In the first stage, we develop a lightweight, adapter-enhanced multi-view generation model. Specifically, we introduce the Pose-Adapter to inject SMPL-X renderings and skeletal information into SDXL, enforcing geometric and pose consistency across views. To preserve facial identity, we incorporate ID-Adapter-G, which injects high-resolution facial features into the generation process. Additionally, we leverage BLIP2 to generate high-quality textual descriptions of the multi-view images, enhancing text-driven controllability in occluded regions. In the second stage, we design a feedforward Transformer model equipped with a multi-view feature fusion module to reconstruct high-fidelity 3D Gaussian Splat representations (3DGS) from the generated images. Furthermore, we introduce ID-Adapter-R, which utilizes a gating mechanism to effectively fuse facial features into the reconstruction process, improving high-frequency detail recovery. Extensive experiments demonstrate that our method can generate realistic, animation-ready 3D avatars without any post-processing and consistently outperforms existing baselines across multiple evaluation metrics.
- Abstract(参考訳): 3D表現技術と生成モデルの急速な進歩により、単一画像からフルボディの3Dアバターを再構築する方法が大幅に進歩した。
しかし、このタスクは単分子入力から得られる情報が少ないため、基本的には不適切であり、生成中の隠蔽領域の形状やテクスチャを制御することが困難である。
これらの課題に対処するため、再構築パイプラインを再設計し、3Dアバター生成のための効率的かつテキスト制御可能な2段階フレームワークであるDream3DAvatarを提案する。
最初の段階では、軽量でアダプタに強化されたマルチビュー生成モデルを開発する。
具体的には、PSP-Xレンダリングと骨格情報をSDXLに注入するPose-Adapterを導入する。
顔のアイデンティティを維持するために,高解像度の顔特徴を生成プロセスに注入するID-Adapter-Gを組み込んだ。
さらに、BLIP2を利用して、マルチビュー画像の高品質なテキスト記述を生成し、隠蔽領域におけるテキスト駆動制御性を向上する。
生成した画像から高忠実度3DガウスSplat表現(3DGS)を再構成する多視点機能融合モジュールを備えたフィードフォワードトランスフォーマーモデルを設計する。
さらに、ゲーティング機構を利用して、顔の特徴を再構成プロセスに効果的に融合させ、高頻度のディテールリカバリを改善するID-Adapter-Rを導入する。
大規模な実験により,本手法はポストプロセッシングを伴わずにリアルでアニメーション対応の3Dアバターを生成でき,既存のベースラインを複数の評価指標で一貫的に上回る結果が得られた。
関連論文リスト
- Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance [69.9745497000557]
本稿では,人間の顔の基盤モデルを用いた最初のSDSベースの手法であるArc2Avatarについて述べる。
我々のアバターは人間の顔メッシュテンプレートとの密接な対応を維持しており、ブレンドシェープによる表現生成を可能にしている。
論文 参考訳(メタデータ) (2025-01-09T17:04:33Z) - InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars [40.10906393484584]
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。
本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-12-03T18:59:15Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - OSTeC: One-Shot Texture Completion [86.23018402732748]
ワンショット3D顔テクスチャ補完のための教師なしアプローチを提案する。
提案手法では,2次元フェースジェネレータで回転画像を再構成することにより,入力画像を3次元で回転させ,見えない領域を埋め込む。
完成したテクスチャーをジェネレーターに投影することで、ターゲットイメージを先取りします。
論文 参考訳(メタデータ) (2020-12-30T23:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。