論文の概要: TPA3D: Triplane Attention for Fast Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2312.02647v4
- Date: Mon, 30 Sep 2024 13:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:59.278940
- Title: TPA3D: Triplane Attention for Fast Text-to-3D Generation
- Title(参考訳): TPA3D:高速テキストから3D生成のためのトライプレーンアテンション
- Authors: Bin-Shih Wu, Hong-En Chen, Sheng-Yu Huang, Yu-Chiang Frank Wang,
- Abstract要約: テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
- 参考スコア(独自算出の注目度): 28.33270078863519
- License:
- Abstract: Due to the lack of large-scale text-3D correspondence data, recent text-to-3D generation works mainly rely on utilizing 2D diffusion models for synthesizing 3D data. Since diffusion-based methods typically require significant optimization time for both training and inference, the use of GAN-based models would still be desirable for fast 3D generation. In this work, we propose Triplane Attention for text-guided 3D generation (TPA3D), an end-to-end trainable GAN-based deep learning model for fast text-to-3D generation. With only 3D shape data and their rendered 2D images observed during training, our TPA3D is designed to retrieve detailed visual descriptions for synthesizing the corresponding 3D mesh data. This is achieved by the proposed attention mechanisms on the extracted sentence and word-level text features. In our experiments, we show that TPA3D generates high-quality 3D textured shapes aligned with fine-grained descriptions, while impressive computation efficiency can be observed.
- Abstract(参考訳): 大規模なテキスト3D対応データがないため、最近のテキスト・ツー・3D生成は主に3Dデータの合成に2D拡散モデルを活用することに依存している。
拡散法は通常、トレーニングと推論の両方にかなりの最適化時間を必要とするため、高速な3D生成にはGANベースのモデルを使うことが望ましい。
本研究では,高速テキスト・ツー・3D生成のための学習モデルであるTPA3D(Triplane Attention for text-guided 3D Generation)を提案する。
トレーニング中の3D形状データとレンダリングされた2D画像のみを用いて,TPA3Dは,対応する3Dメッシュデータを合成するための詳細な視覚的記述を検索するように設計されている。
これは,抽出した文と単語レベルのテキストの特徴に対する注意機構によって達成される。
実験の結果,TPA3Dは微細な記述に整合した高品質な3次元テクスチャ形状を生成できるが,計算効率は目覚ましい。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation [96.62867261689037]
視覚プロンプト誘導型3次元拡散モデル(VP3D)を提案する。
VP3Dは、テキストから3D生成を促進するために、2D視覚プロンプトの視覚的外観知識を明示的に解放する。
実験の結果,VP3Dの2次元視覚プロンプトは3次元モデルの視覚的外観の学習を著しく容易にすることがわかった。
論文 参考訳(メタデータ) (2024-03-25T17:59:31Z) - LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis [76.43669909525488]
LATTE3Dは400msで3Dオブジェクトを生成し、高速なテストタイム最適化でさらに拡張することができる。
LATTE3Dを導入し、これらの制限に対処し、より大きなプロンプトセット上で高速で高品質な生成を実現する。
論文 参考訳(メタデータ) (2024-03-22T17:59:37Z) - 3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors [85.11117452560882]
本稿では,2段階のテキスト・ツー・3D生成システムである3DTopiaについて述べる。
3次元データから直接学習される3次元拡散の第1段階のサンプルは、テキスト条件付き3次元潜伏拡散モデルを用いており、高速なプロトタイピングのための粗い3次元サンプルを迅速に生成する。
第2段階は2次元拡散前処理を利用して、粗い3次元モデルのテクスチャを第1段階からさらに洗練し、高品質なテクスチャ生成のための潜時空間と画素空間の最適化からなる。
論文 参考訳(メタデータ) (2024-03-04T17:26:28Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。
PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative
Radiance Field [16.15190186574068]
データ生成の目的を達成するために,逆2D-to-3D生成フレームワークであるLift3Dを提案する。
2D GANを3DオブジェクトNeRFに持ち上げることで、Lift3Dは生成されたオブジェクトの明示的な3D情報を提供する。
我々は、自律運転データセットを増強することで、我々のフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-07T07:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。