論文の概要: ET3D: Efficient Text-to-3D Generation via Multi-View Distillation
- arxiv url: http://arxiv.org/abs/2311.15561v1
- Date: Mon, 27 Nov 2023 06:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:06:43.106633
- Title: ET3D: Efficient Text-to-3D Generation via Multi-View Distillation
- Title(参考訳): et3d:マルチビュー蒸留による効率的なテキスト対3d生成
- Authors: Yiming Chen, Zhiqi Li, Peidong Liu
- Abstract要約: 本稿では,消費者グラフィックカード上のテキストプロンプトから3Dアセットを生成するのに8ドル程度しか必要としない,効率的なテキスト・ツー・3D生成手法を提案する。
提案手法は3次元学習データを必要としないため,事前学習した画像拡散モデルを蒸留することにより,効率的なテキスト・ツー・3次元生成のための代替手法を提供する。
- 参考スコア(独自算出の注目度): 11.520777124553195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in text-to-image generation has shown encouraging
results via large generative models. Due to the scarcity of 3D assets, it is
hardly to transfer the success of text-to-image generation to that of
text-to-3D generation. Existing text-to-3D generation methods usually adopt the
paradigm of DreamFusion, which conducts per-asset optimization by distilling a
pretrained text-to-image diffusion model. The generation speed usually ranges
from several minutes to tens of minutes per 3D asset, which degrades the user
experience and also imposes a burden to the service providers due to the high
computational budget.
In this work, we present an efficient text-to-3D generation method, which
requires only around 8 $ms$ to generate a 3D asset given the text prompt on a
consumer graphic card. The main insight is that we exploit the images generated
by a large pre-trained text-to-image diffusion model, to supervise the training
of a text conditioned 3D generative adversarial network. Once the network is
trained, we are able to efficiently generate a 3D asset via a single forward
pass. Our method requires no 3D training data and provides an alternative
approach for efficient text-to-3D generation by distilling pre-trained image
diffusion models.
- Abstract(参考訳): テキスト・ツー・イメージ生成の最近の進歩は、大きな生成モデルによる奨励的な結果を示している。
3d資産が不足しているため、テキストから画像への生成の成功をテキストから3d生成に移すことはほとんどない。
既存のテキスト・ツー・3D生成法は通常、事前訓練されたテキスト・ツー・イメージ拡散モデルを蒸留することにより、アセットごとの最適化を行うDreamFusionのパラダイムを採用する。
生成速度は通常、3Dアセットあたりの数分から数十分の範囲で、ユーザエクスペリエンスを低下させ、高い計算予算のためにサービスプロバイダに負担をかける。
そこで本研究では,利用者のグラフィックカードにテキストプロンプトがある場合,3dアセットを生成するのに8ドル程度しかかからない効率的なテキスト対3d生成手法を提案する。
主な知見は,事前学習した大規模テキストから画像への拡散モデルによって生成された画像を活用し,テキスト条件付き3次元生成逆ネットワークのトレーニングを監督することである。
ネットワークがトレーニングされると、1回のフォワードパスで効率的に3dアセットを生成することができます。
本手法は, 3次元学習データを必要としないため, 学習済み画像拡散モデルを蒸留することにより, 効率的なテキスト対3次元生成のための代替手法を提供する。
関連論文リスト
- Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。
PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Instant3D: Instant Text-to-3D Generation [101.25562463919795]
Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2023-11-14T18:59:59Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。