論文の概要: MagicMirror: Fast and High-Quality Avatar Generation with a Constrained Search Space
- arxiv url: http://arxiv.org/abs/2404.01296v1
- Date: Mon, 1 Apr 2024 17:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:16:45.279950
- Title: MagicMirror: Fast and High-Quality Avatar Generation with a Constrained Search Space
- Title(参考訳): MagicMirror: 制限付き検索スペースを備えた高速かつ高品質なアバター生成
- Authors: Armand Comas-Massagué, Di Qiu, Menglei Chai, Marcel Bühler, Amit Raj, Ruiqi Gao, Qiangeng Xu, Mark Matthews, Paulo Gotardo, Octavia Camps, Sergio Orts-Escolano, Thabo Beeler,
- Abstract要約: テキストプロンプトを利用した3次元アバター生成とパーソナライズのための新しいフレームワークを提案する。
主要なイノベーションは、フォトリアリスティックなアバター合成の課題を克服することを目的としている。
- 参考スコア(独自算出の注目度): 25.24509617548819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel framework for 3D human avatar generation and personalization, leveraging text prompts to enhance user engagement and customization. Central to our approach are key innovations aimed at overcoming the challenges in photo-realistic avatar synthesis. Firstly, we utilize a conditional Neural Radiance Fields (NeRF) model, trained on a large-scale unannotated multi-view dataset, to create a versatile initial solution space that accelerates and diversifies avatar generation. Secondly, we develop a geometric prior, leveraging the capabilities of Text-to-Image Diffusion Models, to ensure superior view invariance and enable direct optimization of avatar geometry. These foundational ideas are complemented by our optimization pipeline built on Variational Score Distillation (VSD), which mitigates texture loss and over-saturation issues. As supported by our extensive experiments, these strategies collectively enable the creation of custom avatars with unparalleled visual quality and better adherence to input text prompts. You can find more results and videos in our website: https://syntec-research.github.io/MagicMirror
- Abstract(参考訳): 本稿では,ユーザエンゲージメントとカスタマイズを高めるために,テキストプロンプトを活用した3次元アバター生成とパーソナライズのための新しいフレームワークを提案する。
われわれのアプローチの中心は、写真リアリスティックなアバター合成の課題を克服するための重要なイノベーションである。
まず、大規模無注釈のマルチビューデータセットに基づいて訓練された条件付きニューラルラジアンスフィールド(NeRF)モデルを用いて、アバター生成を加速し、多様化する多目的初期解空間を作成する。
第2に,テキスト・ツー・イメージ・ディフュージョン・モデルの能力を生かした幾何学的先行モデルを構築し,優れたビュー不変性を確保し,アバター幾何の直接最適化を可能にする。
これらの基礎的考え方は、テクスチャ損失と過飽和問題を緩和する変分スコア蒸留(VSD)に基づく最適化パイプラインによって補完される。
我々の広範な実験で支持されたように、これらの戦略は、相容れない視覚的品質と入力テキストプロンプトへのより優れた順守を備えたカスタムアバターの作成を可能にする。
私たちのWebサイトでは、より多くの結果とビデオが見られます。
関連論文リスト
- X-Oscar: A Progressive Framework for High-quality Text-guided 3D Animatable Avatar Generation [63.74194950823133]
X-Oscarはテキストプロンプトから高品質なアニマタブルアバターを生成するためのプログレッシブフレームワークである。
過飽和に対処するために、トレーニング中にアバターを適応分布として表現する適応変分法を導入する。
Avatar-aware Score Distillation Smpling (ASDS) も提案する。
論文 参考訳(メタデータ) (2024-05-02T02:30:39Z) - GeneAvatar: Generic Expression-Aware Volumetric Head Avatar Editing from a Single Image [89.70322127648349]
本稿では,多種多様な3DMM駆動ヘッドアバターに適用可能な汎用的なアバター編集手法を提案する。
この目的を達成するために、単一の画像から一貫した3D修正フィールドへのリフト2D編集を可能にする新しい表現対応修正生成モデルを設計する。
論文 参考訳(メタデータ) (2024-04-02T17:58:35Z) - One2Avatar: Generative Implicit Head Avatar For Few-shot User Adaptation [31.310769289315648]
本稿では,1ユーザあたり1枚または数枚の画像のみを利用した高品質なヘッドアバターを作成するための新しいアプローチを提案する。
我々は2407名の被験者から多視点の表情データセットから3次元アニマタブルなフォトリアリスティックヘッドアバターの生成モデルを学習した。
提案手法は,従来のアバター適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T07:48:29Z) - SEEAvatar: Photorealistic Text-to-3D Avatar Generation with Constrained
Geometry and Appearance [37.85026590250023]
テキストから光リアルな3Dアバターを生成する方法であるSEEAvatarを提案する。
幾何学において、最適化されたアバターをテンプレートアバターで適切に大域的に制限することを提案する。
外観生成には、プロンプトエンジニアリングによって強化された拡散モデルを用いて物理ベースのレンダリングパイプラインを誘導する。
論文 参考訳(メタデータ) (2023-12-13T14:48:35Z) - HAVE-FUN: Human Avatar Reconstruction from Few-Shot Unconstrained Images [33.298962236215964]
数枚の写真アルバムからのヒトアバターの復元について検討した。
動的データを扱うために,深行テトラヘドラとスキン機構を統合する。
私たちのフレームワークはHaveFunと呼ばれ、アバターの再構築、レンダリング、アニメーションを実行できます。
論文 参考訳(メタデータ) (2023-11-27T10:01:31Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z) - AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars [84.85009267371218]
本研究では,動的なフルヘッドアバターの外観を編集するテキストベースのAvatarStudioを提案する。
提案手法は,ニューラルフィールド(NeRF)を用いて人間の頭部のダイナミックなパフォーマンスを捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。
提案手法は,全頭部を標準空間で編集し,事前学習した変形ネットワークを介して残時間ステップに伝達する。
論文 参考訳(メタデータ) (2023-06-01T11:06:01Z) - Text-Conditional Contextualized Avatars For Zero-Shot Personalization [47.85747039373798]
本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。
私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターのトレーニングは一切必要ありません。
大規模な画像データセットを利用して人間の3Dポーズパラメータを学習する方法を初めて示す。
論文 参考訳(メタデータ) (2023-04-14T22:00:44Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - OTAvatar: One-shot Talking Face Avatar with Controllable Tri-plane
Rendering [81.55960827071661]
制御性、一般化性、効率性は、ニューラル暗黙の場で表される顔アバターを構成する主要な目的である。
汎用制御可能な3面描画ソリューションにより顔アバターを構成するワンショット面アバター(OTAvatar)を提案する。
論文 参考訳(メタデータ) (2023-03-26T09:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。