論文の概要: Guide3D: Create 3D Avatars from Text and Image Guidance
- arxiv url: http://arxiv.org/abs/2308.09705v1
- Date: Fri, 18 Aug 2023 17:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:19:52.479095
- Title: Guide3D: Create 3D Avatars from Text and Image Guidance
- Title(参考訳): Guide3D:テキストと画像から3Dアバターを作る
- Authors: Yukang Cao, Yan-Pei Cao, Kai Han, Ying Shan, Kwan-Yee K. Wong
- Abstract要約: Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
- 参考スコア(独自算出の注目度): 55.71306021041785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, text-to-image generation has exhibited remarkable advancements,
with the ability to produce visually impressive results. In contrast,
text-to-3D generation has not yet reached a comparable level of quality.
Existing methods primarily rely on text-guided score distillation sampling
(SDS), and they encounter difficulties in transferring 2D attributes of the
generated images to 3D content. In this work, we aim to develop an effective 3D
generative model capable of synthesizing high-resolution textured meshes by
leveraging both textual and image information. To this end, we introduce
Guide3D, a zero-shot text-and-image-guided generative model for 3D avatar
generation based on diffusion models. Our model involves (1) generating
sparse-view images of a text-consistent character using diffusion models, and
(2) jointly optimizing multi-resolution differentiable marching tetrahedral
grids with pixel-aligned image features. We further propose a similarity-aware
feature fusion strategy for efficiently integrating features from different
views. Moreover, we introduce two novel training objectives as an alternative
to calculating SDS, significantly enhancing the optimization process. We
thoroughly evaluate the performance and components of our framework, which
outperforms the current state-of-the-art in producing topologically and
structurally correct geometry and high-resolution textures. Guide3D enables the
direct transfer of 2D-generated images to the 3D space. Our code will be made
publicly available.
- Abstract(参考訳): 近年、テキストから画像への生成は目覚ましい進歩を見せており、視覚的に印象的な結果を生み出すことができる。
対照的に、テキストから3D生成は、まだ同等の品質に達していない。
既存の方法は主にsds(text-guided score distillation sampling)に依存しており、生成した画像の2d属性を3dコンテンツに転送するのが困難である。
本研究では,テキスト情報と画像情報の両方を活用することで,高分解能なテクスチャメッシュを合成できる効果的な3次元生成モデルの構築を目的とする。
この目的のために,拡散モデルに基づく3次元アバター生成のためのゼロショットテキスト・画像誘導生成モデルである Guide3D を導入する。
本モデルは,(1)拡散モデルを用いてテキスト一貫性キャラクタのスパースビュー画像を生成し,(2)画素整列画像特徴を持つ多分解能微分可能四面体格子を共同最適化する。
さらに,異なる視点からの機能を効率的に統合するための類似性認識機能融合戦略を提案する。
さらに,sds計算の代替として,新たな2つの学習目標を導入し,最適化プロセスを大幅に向上させる。
トポロジ的かつ構造的に正しい幾何と高分解能のテクスチャを作り出す上で,現在の最先端技術よりも優れたフレームワークの性能と構成要素を徹底的に評価する。
guide3dは2d生成画像の3d空間への直接転送を可能にする。
私たちのコードは公開されます。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。
安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-09-05T17:21:54Z) - Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation [12.693847842218604]
5分以内に高忠実で一貫した3Dコンテンツをパーソナライズできる新しい3Dカスタマイズ手法「Make-Your-3D」を導入する。
我々の重要な洞察は、多視点拡散モデルとアイデンティティ特異的な2次元生成モデルの分布を調和させ、所望の3次元対象の分布と整合させることである。
提案手法は,高画質で一貫した,かつ主観的な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2024-03-14T17:57:04Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。