論文の概要: GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars
- arxiv url: http://arxiv.org/abs/2408.13674v1
- Date: Sat, 24 Aug 2024 21:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:29:37.120716
- Title: GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars
- Title(参考訳): GenCA: 現実的で生産可能なコーデックアバターのためのテキスト条件生成モデル
- Authors: Keqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz,
- Abstract要約: フォトリアリスティックでコントロール可能な3Dアバターは、バーチャルリアリティー(VR/MR)、テレプレゼンス、ゲーム、映画制作など、様々な用途に欠かせない。
アバター作成の伝統的な方法は、しばしば各アバターのスキャンと再構築に時間を要する。
本稿では,多彩なアイデンティティを持つ写真リアルな顔アバターを生成可能なテキスト条件生成モデルを提案する。
- 参考スコア(独自算出の注目度): 44.8290935585746
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Photo-realistic and controllable 3D avatars are crucial for various applications such as virtual and mixed reality (VR/MR), telepresence, gaming, and film production. Traditional methods for avatar creation often involve time-consuming scanning and reconstruction processes for each avatar, which limits their scalability. Furthermore, these methods do not offer the flexibility to sample new identities or modify existing ones. On the other hand, by learning a strong prior from data, generative models provide a promising alternative to traditional reconstruction methods, easing the time constraints for both data capture and processing. Additionally, generative methods enable downstream applications beyond reconstruction, such as editing and stylization. Nonetheless, the research on generative 3D avatars is still in its infancy, and therefore current methods still have limitations such as creating static avatars, lacking photo-realism, having incomplete facial details, or having limited drivability. To address this, we propose a text-conditioned generative model that can generate photo-realistic facial avatars of diverse identities, with more complete details like hair, eyes and mouth interior, and which can be driven through a powerful non-parametric latent expression space. Specifically, we integrate the generative and editing capabilities of latent diffusion models with a strong prior model for avatar expression driving. Our model can generate and control high-fidelity avatars, even those out-of-distribution. We also highlight its potential for downstream applications, including avatar editing and single-shot avatar reconstruction.
- Abstract(参考訳): フォトリアリスティックでコントロール可能な3Dアバターは、バーチャルリアリティー(VR/MR)、テレプレゼンス、ゲーム、映画制作など、様々な用途に欠かせない。
アバター作成の伝統的な方法は、しばしば各アバターのスキャンと再構成に時間を要するため、スケーラビリティが制限される。
さらに、これらの手法は、新しいアイデンティティをサンプリングしたり、既存のものを修正したりするための柔軟性を提供していません。
一方、データから強力な事前学習を行うことで、生成モデルは従来の再構築手法に代わる有望な代替手段を提供し、データキャプチャと処理の両方の時間制約を緩和する。
さらに、生成手法は、編集やスタイリゼーションなど、再構築以上のダウンストリームアプリケーションを可能にする。
それでも、生成的な3Dアバターの研究はまだ初期段階であり、現在の手法では、静止アバターの作成、フォトリアリズムの欠如、顔の細部が不完全なこと、乾燥性に限界がある。
そこで本研究では, 髪, 眼, 口内などの細部を網羅し, 強力な非パラメトリック潜伏表現空間を駆動できる, 多様なアイデンティティを持つ写真リアリスティック顔アバターを生成可能なテキスト条件生成モデルを提案する。
具体的には、遅延拡散モデルの生成および編集機能と、アバター表現駆動のための強力な先行モデルを統合する。
我々のモデルは高忠実度アバターを生成・制御できる。
また、アバター編集や単発アバター再構成など、下流アプリケーションの可能性も強調する。
関連論文リスト
- GeneAvatar: Generic Expression-Aware Volumetric Head Avatar Editing from a Single Image [89.70322127648349]
本稿では,多種多様な3DMM駆動ヘッドアバターに適用可能な汎用的なアバター編集手法を提案する。
この目的を達成するために、単一の画像から一貫した3D修正フィールドへのリフト2D編集を可能にする新しい表現対応修正生成モデルを設計する。
論文 参考訳(メタデータ) (2024-04-02T17:58:35Z) - DivAvatar: Diverse 3D Avatar Generation with a Single Prompt [95.9978722953278]
DivAvatarは、単一のテキストプロンプトから多様なアバターを生成するフレームワークである。
生成の多様性と視覚的品質を達成するための2つの重要な設計がある。
大規模な実験により、ディヴァバターは様々な外観のアバターを生成するのに非常に多用途であることが示されている。
論文 参考訳(メタデータ) (2024-02-27T08:10:31Z) - Text2Avatar: Text to 3D Human Avatar Generation with Codebook-Driven
Body Controllable Attribute [33.330629835556664]
本研究では,テキストプロンプトを結合した3次元アバターを現実的に生成できるText2Avatarを提案する。
リアルな3次元アバターデータの不足を軽減するために, 事前学習した非条件の3次元アバター生成モデルを用いる。
論文 参考訳(メタデータ) (2024-01-01T09:39:57Z) - SEEAvatar: Photorealistic Text-to-3D Avatar Generation with Constrained
Geometry and Appearance [37.85026590250023]
テキストから光リアルな3Dアバターを生成する方法であるSEEAvatarを提案する。
幾何学において、最適化されたアバターをテンプレートアバターで適切に大域的に制限することを提案する。
外観生成には、プロンプトエンジニアリングによって強化された拡散モデルを用いて物理ベースのレンダリングパイプラインを誘導する。
論文 参考訳(メタデータ) (2023-12-13T14:48:35Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z) - Text-Conditional Contextualized Avatars For Zero-Shot Personalization [47.85747039373798]
本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。
私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターのトレーニングは一切必要ありません。
大規模な画像データセットを利用して人間の3Dポーズパラメータを学習する方法を初めて示す。
論文 参考訳(メタデータ) (2023-04-14T22:00:44Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - AvatarGen: a 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、多様な外観を持つ非剛体世代だけでなく、ポーズや視点の完全な制御を可能にする最初の方法である。
非剛性力学をモデル化するために、正準空間におけるポーズ依存的な変形を学習するための変形ネットワークを導入する。
提案手法は,高品質な外観と幾何モデルを備えたアニマタブルな人体アバターを生成でき,従来の3D GANよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-08-01T01:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。