論文の概要: Instant 3D Human Avatar Generation using Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.07516v1
- Date: Tue, 11 Jun 2024 17:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 14:36:00.945318
- Title: Instant 3D Human Avatar Generation using Image Diffusion Models
- Title(参考訳): 画像拡散モデルを用いたインスタント3次元アバター生成
- Authors: Nikos Kolotouros, Thiemo Alldieck, Enric Corona, Eduard Gabriel Bazavan, Cristian Sminchisescu,
- Abstract要約: AvatarPopUpは、異なる入力モードから高速で高品質な3Dアバターを生成する方法である。
我々のアプローチでは、わずか2秒で4桁のスピードアップw.r.tで3Dモデルを生成することができる。
- 参考スコア(独自算出の注目度): 37.45927867788691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AvatarPopUp, a method for fast, high quality 3D human avatar generation from different input modalities, such as images and text prompts and with control over the generated pose and shape. The common theme is the use of diffusion-based image generation networks that are specialized for each particular task, followed by a 3D lifting network. We purposefully decouple the generation from the 3D modeling which allow us to leverage powerful image synthesis priors, trained on billions of text-image pairs. We fine-tune latent diffusion networks with additional image conditioning to solve tasks such as image generation and back-view prediction, and to support qualitatively different multiple 3D hypotheses. Our partial fine-tuning approach allows to adapt the networks for each task without inducing catastrophic forgetting. In our experiments, we demonstrate that our method produces accurate, high-quality 3D avatars with diverse appearance that respect the multimodal text, image, and body control signals. Our approach can produce a 3D model in as few as 2 seconds, a four orders of magnitude speedup w.r.t. the vast majority of existing methods, most of which solve only a subset of our tasks, and with fewer controls, thus enabling applications that require the controlled 3D generation of human avatars at scale. The project website can be found at https://www.nikoskolot.com/avatarpopup/.
- Abstract(参考訳): AvatarPopUpは画像やテキストプロンプトなどの異なる入力モードから高速で高品質な3Dアバターを生成する方法であり、生成したポーズや形状を制御できる。
一般的なテーマは、各タスクに特化された拡散ベースの画像生成ネットワークを使用し、次に3Dリフトネットワークを使用することである。
我々は、何十億ものテキストイメージペアで訓練された強力な画像合成を活用できるように、3Dモデリングから目的的に生成を分離する。
我々は、画像生成やバックビュー予測といった課題を解決し、定性的に異なる複数の3D仮説をサポートするために、画像条件を付加した潜伏拡散ネットワークを微調整する。
我々の部分的な微調整アプローチは、破滅的な忘れを誘発することなく、各タスクにネットワークを適応させることができる。
実験では,本手法が多モードテキスト,画像,身体制御信号に敬意を表した,高精度で高品質な3Dアバターを製作できることを実証した。
提案手法では,タスクのサブセットのみを解き,コントロールの少ない4桁のスピードアップを2秒で実現し,人間のアバターを大規模に制御するアプリケーションを実現する。
プロジェクトのWebサイトはhttps://www.nikoskolot.com/avatarpopup/にある。
関連論文リスト
- DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - DivAvatar: Diverse 3D Avatar Generation with a Single Prompt [95.9978722953278]
DivAvatarは、単一のテキストプロンプトから多様なアバターを生成するフレームワークである。
生成の多様性と視覚的品質を達成するための2つの重要な設計がある。
大規模な実験により、ディヴァバターは様々な外観のアバターを生成するのに非常に多用途であることが示されている。
論文 参考訳(メタデータ) (2024-02-27T08:10:31Z) - AvatarMMC: 3D Head Avatar Generation and Editing with Multi-Modal
Conditioning [61.59722900152847]
GANとLDMに基づく3次元頭部アバター生成・編集手法を提案する。
我々は,LDMの条件付け機能を利用して,事前学習した3D GANの潜伏空間に対するマルチモーダル制御を実現する。
RGB入力やセグメンテーションマスク,グローバル属性などの制御信号が混在した3Dヘッドアバターを生成・編集できる。
論文 参考訳(メタデータ) (2024-02-08T16:41:20Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z) - StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity
3D Avatar Generation [103.88928334431786]
高品質な3Dアバターを製作するための新しい手法を提案する。
データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。
提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T13:09:21Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - AvatarGen: A 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、様々な外観と制御可能なジオメトリーを持つ3D認識された人間の無監督世代である。
提案手法は, 高品質な外観と幾何学的モデリングにより, アニマタブルな3次元アバターを生成することができる。
シングルビュー再構成、再アニメーション、テキスト誘導合成/編集など、多くのアプリケーションに向いている。
論文 参考訳(メタデータ) (2022-11-26T15:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。