論文の概要: Instant3D: Instant Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2311.08403v1
- Date: Tue, 14 Nov 2023 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:51:23.303171
- Title: Instant3D: Instant Text-to-3D Generation
- Title(参考訳): instant3d: インスタントテキストから3d生成
- Authors: Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan,
Xiangyu Xu
- Abstract要約: Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
テキストプロンプトから3次元の3次元平面を直接構築する新しいネットワークを考案することで、この顕著なスピードを実現する。
また,従来のシグモイド関数を置き換えるために,簡易かつ効果的なシグモイド活性化関数を提案する。
- 参考スコア(独自算出の注目度): 106.33316090614322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation, which aims to synthesize vivid 3D objects from text
prompts, has attracted much attention from the computer vision community. While
several existing works have achieved impressive results for this task, they
mainly rely on a time-consuming optimization paradigm. Specifically, these
methods optimize a neural field from scratch for each text prompt, taking
approximately one hour or more to generate one object. This heavy and
repetitive training cost impedes their practical deployment. In this paper, we
propose a novel framework for fast text-to-3D generation, dubbed Instant3D.
Once trained, Instant3D is able to create a 3D object for an unseen text prompt
in less than one second with a single run of a feedforward network. We achieve
this remarkable speed by devising a new network that directly constructs a 3D
triplane from a text prompt. The core innovation of our Instant3D lies in our
exploration of strategies to effectively inject text conditions into the
network. Furthermore, we propose a simple yet effective activation function,
the scaled-sigmoid, to replace the original sigmoid function, which speeds up
the training convergence by more than ten times. Finally, to address the Janus
(multi-head) problem in 3D generation, we propose an adaptive Perp-Neg
algorithm that can dynamically adjust its concept negation scales according to
the severity of the Janus problem during training, effectively reducing the
multi-head effect. Extensive experiments on a wide variety of benchmark
datasets demonstrate that the proposed algorithm performs favorably against the
state-of-the-art methods both qualitatively and quantitatively, while achieving
significantly better efficiency. The project page is at
https://ming1993li.github.io/Instant3DProj.
- Abstract(参考訳): テキストプロンプトから鮮やかな3Dオブジェクトを合成することを目的としたテキストから3D生成は、コンピュータビジョンコミュニティから多くの注目を集めている。
既存のいくつかの作品がこのタスクで印象的な成果を上げているが、それらは主に時間を要する最適化パラダイムに依存している。
具体的には、各テキストプロンプトのスクラッチからニューラルネットワークを最適化し、1つのオブジェクトを生成するのに約1時間以上かかる。
この重度かつ反復的なトレーニングコストは、実践的なデプロイメントを妨げる。
本稿では,Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
トレーニングが完了すると、Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
テキストプロンプトから直接3dトライプレーンを構築する新しいネットワークを考案することで、この驚くべきスピードを実現します。
Instant3Dの中核となるイノベーションは、ネットワークにテキスト条件を効果的に注入する戦略を探ることにあります。
さらに,従来のシグモイド関数の代わりに,簡易で効果的なアクティベーション関数であるスケールドシグモイドを提案し,トレーニング収束を10倍以上に高速化する。
最後に、3次元生成におけるJanus問題に対処するため、トレーニング中のJanus問題の重大さに応じてその概念否定尺度を動的に調整し、マルチヘッド効果を効果的に低減できる適応Perp-Negアルゴリズムを提案する。
様々なベンチマークデータセットに対する大規模な実験により、提案アルゴリズムは定性的かつ定量的に最先端の手法に対して良好に動作し、効率は著しく向上した。
プロジェクトページはhttps://ming 1993li.github.io/Instant3DProjにある。
関連論文リスト
- TPA3D: Triplane Attention for Fast Text-to-3D Generation [30.951440204237166]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - ET3D: Efficient Text-to-3D Generation via Multi-View Distillation [11.520777124553195]
本稿では,消費者グラフィックカード上のテキストプロンプトから3Dアセットを生成するのに8ドル程度しか必要としない,効率的なテキスト・ツー・3D生成手法を提案する。
提案手法は3次元学習データを必要としないため,事前学習した画像拡散モデルを蒸留することにより,効率的なテキスト・ツー・3次元生成のための代替手法を提供する。
論文 参考訳(メタデータ) (2023-11-27T06:14:23Z) - LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval
Score Matching [33.696757740830506]
テキストから3D生成の最近の進歩は、将来性を示している。
多くの手法がSDS(Score Distillation Sampling)に基づいている。
オーバー・スムーシングに対抗するために,ISM(Interval Score Matching)を提案する。
論文 参考訳(メタデータ) (2023-11-19T09:59:09Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [53.986321389412154]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Progressive Text-to-3D Generation for Automatic 3D Prototyping [83.33407603057618]
本稿では,MTN(Multi-Scale Triplane Network)と新たなプログレッシブラーニング戦略を提案する。
本実験では,提案手法が既存手法に対して良好に動作することを確認した。
自然言語記述による自動3Dプロトタイピングの道を開くことを目指しています。
論文 参考訳(メタデータ) (2023-09-26T01:08:35Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z) - 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion [55.71215821923401]
我々は、事前訓練された潜伏型NeRF(入力潜伏符号を与えられた3次元オブジェクトを生成するNeRF)によるテキストから3次元生成の課題に取り組む。
本稿では,3D-CLFusion という3D-CLFusion という手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T15:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。