論文の概要: SmartAvatar: Text- and Image-Guided Human Avatar Generation with VLM AI Agents
- arxiv url: http://arxiv.org/abs/2506.04606v1
- Date: Thu, 05 Jun 2025 03:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.515304
- Title: SmartAvatar: Text- and Image-Guided Human Avatar Generation with VLM AI Agents
- Title(参考訳): SmartAvatar: VLMAIエージェントを用いたテキストおよび画像誘導型アバター生成
- Authors: Alexander Huang-Menders, Xinhang Liu, Andy Xu, Yuyao Zhang, Chi-Keung Tang, Yu-Wing Tai,
- Abstract要約: SmartAvatarは視覚言語によるアニメーション対応の3Dアバターを生成するためのフレームワークである。
重要なイノベーションは、エージェントがドラフトアバターを描画する自動検証ループである。
生成されたアバターは完全にリグされ、一貫したアイデンティティと外観で操作をサポートする。
- 参考スコア(独自算出の注目度): 91.26239311240873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: SmartAvatar is a vision-language-agent-driven framework for generating fully rigged, animation-ready 3D human avatars from a single photo or textual prompt. While diffusion-based methods have made progress in general 3D object generation, they continue to struggle with precise control over human identity, body shape, and animation readiness. In contrast, SmartAvatar leverages the commonsense reasoning capabilities of large vision-language models (VLMs) in combination with off-the-shelf parametric human generators to deliver high-quality, customizable avatars. A key innovation is an autonomous verification loop, where the agent renders draft avatars, evaluates facial similarity, anatomical plausibility, and prompt alignment, and iteratively adjusts generation parameters for convergence. This interactive, AI-guided refinement process promotes fine-grained control over both facial and body features, enabling users to iteratively refine their avatars via natural-language conversations. Unlike diffusion models that rely on static pre-trained datasets and offer limited flexibility, SmartAvatar brings users into the modeling loop and ensures continuous improvement through an LLM-driven procedural generation and verification system. The generated avatars are fully rigged and support pose manipulation with consistent identity and appearance, making them suitable for downstream animation and interactive applications. Quantitative benchmarks and user studies demonstrate that SmartAvatar outperforms recent text- and image-driven avatar generation systems in terms of reconstructed mesh quality, identity fidelity, attribute accuracy, and animation readiness, making it a versatile tool for realistic, customizable avatar creation on consumer-grade hardware.
- Abstract(参考訳): SmartAvatarは、単一の写真またはテキストプロンプトから完全にリップされたアニメーション対応の3Dアバターを生成するための、視覚言語駆動のフレームワークである。
拡散に基づく手法は一般的な3次元オブジェクト生成において進歩してきたが、人間のアイデンティティ、体形、アニメーションの即応性に対する正確な制御に苦慮し続けている。
対照的にSmartAvatarは、市販のパラメトリック・ヒューマンジェネレータと組み合わせて、高品質でカスタマイズ可能なアバターを提供することで、大きな視覚言語モデル(VLM)の常識推論能力を活用している。
重要な革新は、自律的な検証ループであり、エージェントがドラフトアバターを描画し、顔の類似性、解剖学的妥当性、迅速なアライメントを評価し、収束のための生成パラメータを反復的に調整する。
この対話型AI誘導の洗練されたプロセスは、顔と体の特徴を細かくコントロールし、ユーザーは自然言語による会話を通じてアバターを反復的に洗練することができる。
静的事前トレーニングされたデータセットに依存し、柔軟性が制限された拡散モデルとは異なり、SmartAvatarはユーザーをモデリングループに持ち込み、LCM駆動の手続き生成と検証システムを通じて継続的改善を保証する。
生成されたアバターは完全にリグされ、一貫したアイデンティティと外観で操作されるので、下流のアニメーションやインタラクティブなアプリケーションに適している。
定量的ベンチマークとユーザスタディにより、SmartAvatarは、再構成メッシュの品質、アイデンティティの正確性、属性の正確性、アニメーションの即興性の観点から、最近のテキストおよびイメージ駆動アバター生成システムよりも優れており、コンシューマグレードのハードウェア上で現実的でカスタマイズ可能なアバター作成のための汎用的なツールであることが示された。
関連論文リスト
- AdaHuman: Animatable Detailed 3D Human Generation with Compositional Multiview Diffusion [56.12859795754579]
AdaHumanは、単一のアプリ内画像から高忠実でアニマタブルな3Dアバターを生成する新しいフレームワークである。
AdaHumanはポーズ条件付き3D共同拡散モデルと合成3DGS精製モジュールという2つの重要なイノベーションを取り入れている。
論文 参考訳(メタデータ) (2025-05-30T17:59:54Z) - EVA: Expressive Virtual Avatars from Multi-view Videos [51.33851869426057]
本稿では,アクター固有の,完全に制御可能な,表現力のある人間のアバターフレームワークであるExpressive Virtual Avatars (EVA)を紹介する。
EVAは、表情、身体の動き、手の動きの独立的な制御を可能にしながら、高忠実でライフライクなレンダリングをリアルタイムで実現している。
この研究は、完全に乾燥可能なデジタル人間モデルに向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2025-05-21T11:22:52Z) - Multimodal Generation of Animatable 3D Human Models with AvatarForge [67.31920821192323]
AvatarForgeはAI駆動の手続き生成を使用してテキストや画像入力からアニマタブルな3Dアバターを生成するフレームワークである。
評価の結果、AvatarForgeはテキストと画像とアバターの生成において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-03-11T08:29:18Z) - GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars [44.8290935585746]
フォトリアリスティックでコントロール可能な3Dアバターは、バーチャルリアリティー(VR/MR)、テレプレゼンス、ゲーム、映画制作など、様々な用途に欠かせない。
アバター作成の伝統的な方法は、しばしば各アバターのスキャンと再構築に時間を要する。
本稿では,多彩なアイデンティティを持つ写真リアルな顔アバターを生成可能なテキスト条件生成モデルを提案する。
論文 参考訳(メタデータ) (2024-08-24T21:25:22Z) - DivAvatar: Diverse 3D Avatar Generation with a Single Prompt [95.9978722953278]
DivAvatarは、単一のテキストプロンプトから多様なアバターを生成するフレームワークである。
生成の多様性と視覚的品質を達成するための2つの重要な設計がある。
大規模な実験により、ディヴァバターは様々な外観のアバターを生成するのに非常に多用途であることが示されている。
論文 参考訳(メタデータ) (2024-02-27T08:10:31Z) - AgentAvatar: Disentangling Planning, Driving and Rendering for
Photorealistic Avatar Agents [16.544688997764293]
我々のフレームワークはLLMを利用してアバターエージェントの顔の動きを詳細に記述する。
これらの記述はタスク非依存の駆動エンジンによって連続的な動作埋め込みに処理される。
我々の枠組みは、モナディックとディヤディックの両方において、様々な非言語アバター相互作用に適応する。
論文 参考訳(メタデータ) (2023-11-29T09:13:00Z) - Text-Conditional Contextualized Avatars For Zero-Shot Personalization [47.85747039373798]
本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。
私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターのトレーニングは一切必要ありません。
大規模な画像データセットを利用して人間の3Dポーズパラメータを学習する方法を初めて示す。
論文 参考訳(メタデータ) (2023-04-14T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。