論文の概要: TextCraft: Zero-Shot Generation of High-Fidelity and Diverse Shapes from
Text
- arxiv url: http://arxiv.org/abs/2211.01427v1
- Date: Wed, 2 Nov 2022 18:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:15:09.928497
- Title: TextCraft: Zero-Shot Generation of High-Fidelity and Diverse Shapes from
Text
- Title(参考訳): textcraft: テキストから高度で多様な形状のゼロショット生成
- Authors: Aditya Sanghi, Rao Fu, Vivian Liu, Karl Willis, Hooman Shayani, Amir
Hosein Khasahmadi, Srinath Sridhar, Daniel Ritchie
- Abstract要約: トレーニングのための(テキスト, 形状)ペアを必要とせずに, 高忠実で多様な3次元形状を生成する方法であるTextCraftを紹介した。
TextCraftは、CLIPを使用して、低次元の潜伏空間を最初に生成し、高解像度にアップスケーリングすることで、これを実現している。
分類器のないガイダンスの新たな変種を提示し、精度と多様性のトレードオフをさらに改善する。
- 参考スコア(独自算出の注目度): 21.727938353786218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language is one of the primary means by which we describe the 3D world around
us. While rapid progress has been made in text-to-2D-image synthesis, similar
progress in text-to-3D-shape synthesis has been hindered by the lack of paired
(text, shape) data. Moreover, extant methods for text-to-shape generation have
limited shape diversity and fidelity. We introduce TextCraft, a method to
address these limitations by producing high-fidelity and diverse 3D shapes
without the need for (text, shape) pairs for training. TextCraft achieves this
by using CLIP and using a multi-resolution approach by first generating in a
low-dimensional latent space and then upscaling to a higher resolution,
improving the fidelity of the generated shape. To improve shape diversity, we
use a discrete latent space which is modelled using a bidirectional transformer
conditioned on the interchangeable image-text embedding space induced by CLIP.
Moreover, we present a novel variant of classifier-free guidance, which further
improves the accuracy-diversity trade-off. Finally, we perform extensive
experiments that demonstrate that TextCraft outperforms state-of-the-art
baselines.
- Abstract(参考訳): 言語は、私たちの周りの3D世界を記述する主要な手段の1つです。
テキスト対2d画像合成では急速に進歩しているが、テキスト対3d画像合成における同様の進歩は、ペア(テキスト、形状)データの欠如によって妨げられている。
さらに、既存のテキストから形状への生成法は、形状の多様性と忠実性に制限がある。
トレーニング用の(テキスト, 形状)ペアを必要とせずに, 高忠実で多様な3次元形状を生成することによって, これらの制約に対処するTextCraftを導入する。
テキストクラフトは、CLIPを使用して、まず低次元の潜在空間を生成し、次に高解像度にアップスケーリングすることで、生成した形状の忠実度を向上させることで、これを実現している。
形状の多様性を向上させるために,CLIPにより誘導される画像テキスト埋め込み空間に条件付き双方向変換器を用いてモデル化した離散潜在空間を用いる。
さらに,精度・多様性のトレードオフをさらに改善した分類器フリーガイダンスの新たな変種を提案する。
最後に,textcraftが最先端のベースラインを上回ることを示す広範な実験を行う。
関連論文リスト
- NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Can Shape-Infused Joint Embeddings Improve Image-Conditioned 3D
Diffusion? [5.0243930429558885]
本研究では,CISP(Contrastive Image Shape Pre Training)を紹介する。
CISPは、共有埋め込み空間で2Dイメージと3D形状を整列させることで、CLIPフレームワークの強化を目指している。
CISPは、CLIPを生成品質と多様性でマッチングする一方で、入力画像とのコヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-02-02T09:09:23Z) - EXIM: A Hybrid Explicit-Implicit Representation for Text-Guided 3D Shape
Generation [124.27302003578903]
本稿では,3次元形状を生成するための新しいテキスト誘導手法を提案する。
我々は,明示的表現と暗黙的表現の強みを組み合わせたハイブリッド3D表現,すなわちEXIMを活用する。
テキスト誘導型3次元形状を用いた室内シーンを一貫したスタイルで生成する手法の適用性を示した。
論文 参考訳(メタデータ) (2023-11-03T05:01:51Z) - CLIPXPlore: Coupled CLIP and Shape Spaces for 3D Shape Exploration [53.623649386871016]
本稿では3次元形状空間の探索を導くために視覚言語モデルを活用する新しい枠組みを提案する。
我々は、形状空間探索を支援するために、強力な事前学習型視覚言語モデルであるCLIPを活用することを提案する。
本研究では,2進誘導,テキスト誘導,スケッチ誘導の3つの探索モードを設計し,形状空間における適切な探索軌跡の特定と形状の有意義な変化を誘導する。
論文 参考訳(メタデータ) (2023-06-14T03:39:32Z) - ShapeClipper: Scalable 3D Shape Learning from Single-View Images via
Geometric and CLIP-based Consistency [39.7058456335011]
実世界のRGB画像から3次元オブジェクト形状を再構成する新しい手法であるShapeClipperを提案する。
ShapeClipperは、単一ビュー分割画像の集合から形状再構成を学習する。
実世界の3つの挑戦的データセットに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-04-13T03:53:12Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。