Fugu-MT 論文翻訳(概要): StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

論文の概要: StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

arxiv url: http://arxiv.org/abs/2305.19012v1
Date: Tue, 30 May 2023 13:09:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 16:13:04.530743
Title: StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation
Title（参考訳）: StyleAvatar3D:高忠実度3Dアバター生成のための画像テキスト拡散モデルの活用
Authors: Chi Zhang, Yiwen Chen, Yijun Fu, Zhenglin Zhou, Gang YU, Billzb Wang, Bin Fu, Tao Chen, Guosheng Lin, Chunhua Shen
Abstract要約: 高品質な3Dアバターを製作するための新しい手法を提案する。データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
参考スコア（独自算出の注目度）: 103.88928334431786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent advancements in image-text diffusion models have stimulated research interest in large-scale 3D generative models. Nevertheless, the limited availability of diverse 3D resources presents significant challenges to learning. In this paper, we present a novel method for generating high-quality, stylized 3D avatars that utilizes pre-trained image-text diffusion models for data generation and a Generative Adversarial Network (GAN)-based 3D generation network for training. Our method leverages the comprehensive priors of appearance and geometry offered by image-text diffusion models to generate multi-view images of avatars in various styles. During data generation, we employ poses extracted from existing 3D models to guide the generation of multi-view images. To address the misalignment between poses and images in data, we investigate view-specific prompts and develop a coarse-to-fine discriminator for GAN training. We also delve into attribute-related prompts to increase the diversity of the generated avatars. Additionally, we develop a latent diffusion model within the style space of StyleGAN to enable the generation of avatars based on image inputs. Our approach demonstrates superior performance over current state-of-the-art methods in terms of visual quality and diversity of the produced avatars.
Abstract（参考訳）: 近年の画像テキスト拡散モデルの発展は、大規模3次元生成モデルの研究の関心を刺激している。それでも、多様な3Dリソースの可用性の制限は、学習に重大な課題をもたらす。本稿では,データ生成のための事前学習された画像テキスト拡散モデルを用いた高品質な3Dアバター作成のための新しい手法と,GANベースのトレーニング用3D生成ネットワークを提案する。本手法は,画像テキスト拡散モデルによって提供される外観や形状の包括的先行を利用して,様々なスタイルのアバターの多視点画像を生成する。データ生成では,既存の3次元モデルから抽出したポーズを用いてマルチビュー画像の生成を誘導する。データ中のポーズと画像の相違に対処するために、ビュー固有のプロンプトを調査し、GANトレーニングのための粗大な識別器を開発する。また,アバターの多様性を高めるために属性関連プロンプトを探索する。さらに,画像入力に基づくアバター生成を可能にするために,スタイルGANのスタイル空間内に潜時拡散モデルを構築した。提案手法は, 生成するアバターの視覚的品質と多様性の観点から, 最先端の手法よりも優れた性能を示す。

関連論文リスト

SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation [0.0]
1枚の画像から得られる高品質のアニマタブルな3Dアバターは、コンピュータビジョンにおいて重要な課題である。既存の手法の相補的強みを活用することによって,これらの制約に対処する新しいアプローチSVADを提案する。本手法は,映像拡散により合成トレーニングデータを生成し,画像保存モジュールと画像復元モジュールを併用し,改良したデータを用いて3DGSアバターを訓練する。
論文参考訳（メタデータ） (2025-05-08T17:59:58Z)
3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文参考訳（メタデータ） (2024-08-25T09:31:22Z)
Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation [12.693847842218604]
5分以内に高忠実で一貫した3Dコンテンツをパーソナライズできる新しい3Dカスタマイズ手法「Make-Your-3D」を導入する。我々の重要な洞察は、多視点拡散モデルとアイデンティティ特異的な2次元生成モデルの分布を調和させ、所望の3次元対象の分布と整合させることである。提案手法は,高画質で一貫した,かつ主観的な3Dコンテンツを生成することができる。
論文参考訳（メタデータ） (2024-03-14T17:57:04Z)
Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation [14.064983137553353]
我々は、制御可能な光リアルな人間のアバターを作成するために、生成拡散モデルの品質と機能を高めることを目的としている。我々は,3次元形態素モデルを最先端の多視点拡散手法に統合することで実現した。提案するフレームワークは, 完全3次元一貫性, アニマタブル, フォトリアリスティックな人間のアバターの作成を可能にする最初の拡散モデルである。
論文参考訳（メタデータ） (2024-01-09T18:59:04Z)
VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。 3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文参考訳（メタデータ） (2023-12-18T18:59:05Z)
CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文参考訳（メタデータ） (2023-12-11T18:59:58Z)
IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文参考訳（メタデータ） (2023-08-22T14:39:17Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)
DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。 SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文参考訳（メタデータ） (2023-04-03T12:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。