論文の概要: Instant3D: Instant Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2311.08403v1
- Date: Tue, 14 Nov 2023 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:51:23.303171
- Title: Instant3D: Instant Text-to-3D Generation
- Title(参考訳): instant3d: インスタントテキストから3d生成
- Authors: Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan,
Xiangyu Xu
- Abstract要約: Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
テキストプロンプトから3次元の3次元平面を直接構築する新しいネットワークを考案することで、この顕著なスピードを実現する。
また,従来のシグモイド関数を置き換えるために,簡易かつ効果的なシグモイド活性化関数を提案する。
- 参考スコア(独自算出の注目度): 106.33316090614322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation, which aims to synthesize vivid 3D objects from text
prompts, has attracted much attention from the computer vision community. While
several existing works have achieved impressive results for this task, they
mainly rely on a time-consuming optimization paradigm. Specifically, these
methods optimize a neural field from scratch for each text prompt, taking
approximately one hour or more to generate one object. This heavy and
repetitive training cost impedes their practical deployment. In this paper, we
propose a novel framework for fast text-to-3D generation, dubbed Instant3D.
Once trained, Instant3D is able to create a 3D object for an unseen text prompt
in less than one second with a single run of a feedforward network. We achieve
this remarkable speed by devising a new network that directly constructs a 3D
triplane from a text prompt. The core innovation of our Instant3D lies in our
exploration of strategies to effectively inject text conditions into the
network. Furthermore, we propose a simple yet effective activation function,
the scaled-sigmoid, to replace the original sigmoid function, which speeds up
the training convergence by more than ten times. Finally, to address the Janus
(multi-head) problem in 3D generation, we propose an adaptive Perp-Neg
algorithm that can dynamically adjust its concept negation scales according to
the severity of the Janus problem during training, effectively reducing the
multi-head effect. Extensive experiments on a wide variety of benchmark
datasets demonstrate that the proposed algorithm performs favorably against the
state-of-the-art methods both qualitatively and quantitatively, while achieving
significantly better efficiency. The project page is at
https://ming1993li.github.io/Instant3DProj.
- Abstract(参考訳): テキストプロンプトから鮮やかな3Dオブジェクトを合成することを目的としたテキストから3D生成は、コンピュータビジョンコミュニティから多くの注目を集めている。
既存のいくつかの作品がこのタスクで印象的な成果を上げているが、それらは主に時間を要する最適化パラダイムに依存している。
具体的には、各テキストプロンプトのスクラッチからニューラルネットワークを最適化し、1つのオブジェクトを生成するのに約1時間以上かかる。
この重度かつ反復的なトレーニングコストは、実践的なデプロイメントを妨げる。
本稿では,Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
トレーニングが完了すると、Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
テキストプロンプトから直接3dトライプレーンを構築する新しいネットワークを考案することで、この驚くべきスピードを実現します。
Instant3Dの中核となるイノベーションは、ネットワークにテキスト条件を効果的に注入する戦略を探ることにあります。
さらに,従来のシグモイド関数の代わりに,簡易で効果的なアクティベーション関数であるスケールドシグモイドを提案し,トレーニング収束を10倍以上に高速化する。
最後に、3次元生成におけるJanus問題に対処するため、トレーニング中のJanus問題の重大さに応じてその概念否定尺度を動的に調整し、マルチヘッド効果を効果的に低減できる適応Perp-Negアルゴリズムを提案する。
様々なベンチマークデータセットに対する大規模な実験により、提案アルゴリズムは定性的かつ定量的に最先端の手法に対して良好に動作し、効率は著しく向上した。
プロジェクトページはhttps://ming 1993li.github.io/Instant3DProjにある。
関連論文リスト
- VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - BrightDreamer: Generic 3D Gaussian Generative Framework for Fast Text-to-3D Synthesis [10.151307760539071]
本稿ではBrightDreamerを提案する。BrightDreamerは、汎用的で高速なテキストから3D生成を実現するエンドツーエンドフィードフォワードアプローチである。
まず、変形形状とその新しい位置を予測するために、テキスト誘導形状変形(TSD)ネットワークを提案する。
次に,新しい3次元オブジェクトの3次元表現を生成するために,テキスト誘導型3次元ジェネレータ(TTG)を設計する。
論文 参考訳(メタデータ) (2024-03-17T17:04:45Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - ET3D: Efficient Text-to-3D Generation via Multi-View Distillation [11.520777124553195]
本稿では,消費者グラフィックカード上のテキストプロンプトから3Dアセットを生成するのに8ドル程度しか必要としない,効率的なテキスト・ツー・3D生成手法を提案する。
提案手法は3次元学習データを必要としないため,事前学習した画像拡散モデルを蒸留することにより,効率的なテキスト・ツー・3次元生成のための代替手法を提供する。
論文 参考訳(メタデータ) (2023-11-27T06:14:23Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - Progressive Text-to-3D Generation for Automatic 3D Prototyping [83.33407603057618]
本稿では,MTN(Multi-Scale Triplane Network)と新たなプログレッシブラーニング戦略を提案する。
本実験では,提案手法が既存手法に対して良好に動作することを確認した。
自然言語記述による自動3Dプロトタイピングの道を開くことを目指しています。
論文 参考訳(メタデータ) (2023-09-26T01:08:35Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。