論文の概要: Instant3D: Instant Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2311.08403v2
- Date: Mon, 29 Apr 2024 04:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 00:25:09.636531
- Title: Instant3D: Instant Text-to-3D Generation
- Title(参考訳): Instant3D:Instant Text-to-3D 生成
- Authors: Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu,
- Abstract要約: Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
- 参考スコア(独自算出の注目度): 101.25562463919795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation has attracted much attention from the computer vision community. Existing methods mainly optimize a neural field from scratch for each text prompt, relying on heavy and repetitive training cost which impedes their practical deployment. In this paper, we propose a novel framework for fast text-to-3D generation, dubbed Instant3D. Once trained, Instant3D is able to create a 3D object for an unseen text prompt in less than one second with a single run of a feedforward network. We achieve this remarkable speed by devising a new network that directly constructs a 3D triplane from a text prompt. The core innovation of our Instant3D lies in our exploration of strategies to effectively inject text conditions into the network. In particular, we propose to combine three key mechanisms: cross-attention, style injection, and token-to-plane transformation, which collectively ensure precise alignment of the output with the input text. Furthermore, we propose a simple yet effective activation function, the scaled-sigmoid, to replace the original sigmoid function, which speeds up the training convergence by more than ten times. Finally, to address the Janus (multi-head) problem in 3D generation, we propose an adaptive Perp-Neg algorithm that can dynamically adjust its concept negation scales according to the severity of the Janus problem during training, effectively reducing the multi-head effect. Extensive experiments on a wide variety of benchmark datasets demonstrate that the proposed algorithm performs favorably against the state-of-the-art methods both qualitatively and quantitatively, while achieving significantly better efficiency. The code, data, and models are available at https://github.com/ming1993li/Instant3DCodes.
- Abstract(参考訳): テキストから3D生成はコンピュータビジョンコミュニティから多くの注目を集めている。
既存の方法は、主にテキストプロンプト毎にスクラッチからニューラルネットワークを最適化する。
本稿では,Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
トレーニングが完了すると、Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
テキストプロンプトから3次元の3次元平面を直接構築する新しいネットワークを考案することで、この顕著なスピードを実現する。
Instant3Dの中核となるイノベーションは、ネットワークにテキスト条件を効果的に注入する戦略を探ることにあります。
特に、入力テキストとの正確なアライメントを確保するために、クロスアテンション、スタイルインジェクション、トークン・ツー・プレーン変換の3つの重要なメカニズムを組み合わせることを提案する。
さらに,従来のシグモイド関数の代わりに,簡易で効果的なアクティベーション関数であるスケールドシグモイドを提案し,トレーニング収束を10倍以上に高速化する。
最後に、3次元生成におけるJanus(マルチヘッド)問題に対処するため、トレーニング中のJanus問題の重大度に応じてその概念否定尺度を動的に調整し、マルチヘッド効果を効果的に低減できる適応型Perp-Negアルゴリズムを提案する。
様々なベンチマークデータセットに対する大規模な実験により、提案アルゴリズムは定性的かつ定量的に最先端の手法に対して好適に動作し、効率は著しく向上した。
コード、データ、モデルはhttps://github.com/ming1993li/Instant3DCodesで入手できる。
関連論文リスト
- VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - ET3D: Efficient Text-to-3D Generation via Multi-View Distillation [11.520777124553195]
本稿では,消費者グラフィックカード上のテキストプロンプトから3Dアセットを生成するのに8ドル程度しか必要としない,効率的なテキスト・ツー・3D生成手法を提案する。
提案手法は3次元学習データを必要としないため,事前学習した画像拡散モデルを蒸留することにより,効率的なテキスト・ツー・3次元生成のための代替手法を提供する。
論文 参考訳(メタデータ) (2023-11-27T06:14:23Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - Progressive Text-to-3D Generation for Automatic 3D Prototyping [83.33407603057618]
本稿では,MTN(Multi-Scale Triplane Network)と新たなプログレッシブラーニング戦略を提案する。
本実験では,提案手法が既存手法に対して良好に動作することを確認した。
自然言語記述による自動3Dプロトタイピングの道を開くことを目指しています。
論文 参考訳(メタデータ) (2023-09-26T01:08:35Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。