論文の概要: HexaGen3D: StableDiffusion is just one step away from Fast and Diverse
Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2401.07727v1
- Date: Mon, 15 Jan 2024 14:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:03:30.816095
- Title: HexaGen3D: StableDiffusion is just one step away from Fast and Diverse
Text-to-3D Generation
- Title(参考訳): HexaGen3D:StableDiffusionは高速テキストから3D生成までわずか1歩
- Authors: Antoine Mercier, Ramin Nakhli, Mahesh Reddy, Rajeev Yasarla, Hong Cai,
Fatih Porikli, Guillaume Berger
- Abstract要約: 本研究では,大規模2次元拡散モデルのパワーを利用する新しい手法を提案する。
我々のアプローチであるHexaGen3Dは、6つの直交射影と対応する潜伏三葉機を共同で予測するために事前訓練されたテキスト・ツー・イメージモデルを微調整する。
高品質で多様なオブジェクトをテキストプロンプトから7秒で推測し、品質とレイテンシのトレードオフを大幅に改善する。
- 参考スコア(独自算出の注目度): 47.74743874265989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the latest remarkable advances in generative modeling, efficient
generation of high-quality 3D assets from textual prompts remains a difficult
task. A key challenge lies in data scarcity: the most extensive 3D datasets
encompass merely millions of assets, while their 2D counterparts contain
billions of text-image pairs. To address this, we propose a novel approach
which harnesses the power of large, pretrained 2D diffusion models. More
specifically, our approach, HexaGen3D, fine-tunes a pretrained text-to-image
model to jointly predict 6 orthographic projections and the corresponding
latent triplane. We then decode these latents to generate a textured mesh.
HexaGen3D does not require per-sample optimization, and can infer high-quality
and diverse objects from textual prompts in 7 seconds, offering significantly
better quality-to-latency trade-offs when comparing to existing approaches.
Furthermore, HexaGen3D demonstrates strong generalization to new objects or
compositions.
- Abstract(参考訳): 生成モデリングにおける最新の顕著な進歩にもかかわらず、テキストプロンプトから高品質な3Dアセットを効率よく生成することは難しい課題である。
最も広範な3Dデータセットには数百万の資産が含まれており、2Dデータセットには数十億のテキストイメージペアが含まれている。
そこで本研究では,大規模な2次元拡散モデルのパワーを利用する新しい手法を提案する。
より具体的には、我々のアプローチであるヘキサゲン3dは、6つの正規射影と対応する潜在三平面を共同で予測するために、事前訓練されたテキストから画像へのモデルを微調整します。
次にこれらのラテントをデコードして、テクスチャ化されたメッシュを生成します。
HexaGen3Dはサンプルごとの最適化を必要としないため、7秒でテキストプロンプトから高品質で多様なオブジェクトを推測することができる。
さらに、HexaGen3Dは新しいオブジェクトや合成に強い一般化を示す。
関連論文リスト
- 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion [86.25111098482537]
3DTopia-XLは,既存の手法の限界を克服するために設計された,スケーラブルなネイティブな3D生成モデルである。
3DTopia-XLは、新しいプリミティブベースの3D表現であるPrimXを利用して、詳細な形状、アルベド、マテリアルフィールドをコンパクトなテンソル形式にエンコードする。
その上で, 1) 原始的パッチ圧縮, 2) および潜在的原始的拡散を含む拡散変換器(DiT)に基づく生成フレームワークを提案する。
我々は,3DTopia-XLが既存の手法よりも高い性能を示すことを示すために,広範囲な定性的,定量的な実験を行った。
論文 参考訳(メタデータ) (2024-09-19T17:59:06Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - BoostDream: Efficient Refining for High-Quality Text-to-3D Generation from Multi-View Diffusion [0.0]
BoostDreamは、粗い3D資産を高品質に変換するために設計された、高効率なプラグアンドプレイ3D精製手法である。
本研究では, フィードフォワード生成により得られた3次元アセットと異なる表現に適合する3次元モデル蒸留を導入する。
新たな多視点SDS損失を設計し、多視点認識2次元拡散モデルを用いて3次元資産を洗練させる。
論文 参考訳(メタデータ) (2024-01-30T05:59:00Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。