論文の概要: CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes
from Natural Language
- arxiv url: http://arxiv.org/abs/2211.01427v3
- Date: Thu, 13 Apr 2023 20:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 16:44:52.231548
- Title: CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes
from Natural Language
- Title(参考訳): CLIP-Sculptor: 自然言語からの高忠実度および多次元形状のゼロショット生成
- Authors: Aditya Sanghi, Rao Fu, Vivian Liu, Karl Willis, Hooman Shayani, Amir
Hosein Khasahmadi, Srinath Sridhar, Daniel Ritchie
- Abstract要約: CLIP-Sculptorは、トレーニング中に(テキスト、形状)ペアを必要とせずに、高忠実で多様な3次元形状を生成する方法である。
形状の多様性を向上させるために、CLIPのイメージテキスト埋め込み空間に条件付きトランスフォーマーを用いてモデル化した離散潜在空間を用いる。
- 参考スコア(独自算出の注目度): 21.727938353786218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have demonstrated that natural language can be used to generate
and edit 3D shapes. However, these methods generate shapes with limited
fidelity and diversity. We introduce CLIP-Sculptor, a method to address these
constraints by producing high-fidelity and diverse 3D shapes without the need
for (text, shape) pairs during training. CLIP-Sculptor achieves this in a
multi-resolution approach that first generates in a low-dimensional latent
space and then upscales to a higher resolution for improved shape fidelity. For
improved shape diversity, we use a discrete latent space which is modeled using
a transformer conditioned on CLIP's image-text embedding space. We also present
a novel variant of classifier-free guidance, which improves the
accuracy-diversity trade-off. Finally, we perform extensive experiments
demonstrating that CLIP-Sculptor outperforms state-of-the-art baselines. The
code is available at https://ivl.cs.brown.edu/#/projects/clip-sculptor.
- Abstract(参考訳): 近年の研究では、自然言語が3d形状の生成と編集に利用できることが示されている。
しかし、これらの手法は、有限性と多様性に制限された形状を生成する。
トレーニング中に(テキスト,形状)ペアを必要とせずに,高忠実度で多様な3d形状を生成できる手法であるクリップ彫刻法を提案する。
CLIP-Sculptorは、まず低次元の潜在空間で生成し、次に高分解能にアップスケールすることで、形状の忠実度を向上させる。
形状の多様性を向上させるために、CLIPのイメージテキスト埋め込み空間に条件付きトランスフォーマーを用いてモデル化した離散潜在空間を用いる。
また,精度と多様性のトレードオフを改善する新しい分類器フリーガイダンスを提案する。
最後に,CLIP-Sculptorが最先端のベースラインより優れていることを示す広範な実験を行った。
コードはhttps://ivl.cs.brown.edu/#/projects/clip-sculptorで入手できる。
関連論文リスト
- NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Can Shape-Infused Joint Embeddings Improve Image-Conditioned 3D
Diffusion? [5.0243930429558885]
本研究では,CISP(Contrastive Image Shape Pre Training)を紹介する。
CISPは、共有埋め込み空間で2Dイメージと3D形状を整列させることで、CLIPフレームワークの強化を目指している。
CISPは、CLIPを生成品質と多様性でマッチングする一方で、入力画像とのコヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-02-02T09:09:23Z) - EXIM: A Hybrid Explicit-Implicit Representation for Text-Guided 3D Shape
Generation [124.27302003578903]
本稿では,3次元形状を生成するための新しいテキスト誘導手法を提案する。
我々は,明示的表現と暗黙的表現の強みを組み合わせたハイブリッド3D表現,すなわちEXIMを活用する。
テキスト誘導型3次元形状を用いた室内シーンを一貫したスタイルで生成する手法の適用性を示した。
論文 参考訳(メタデータ) (2023-11-03T05:01:51Z) - CLIPXPlore: Coupled CLIP and Shape Spaces for 3D Shape Exploration [53.623649386871016]
本稿では3次元形状空間の探索を導くために視覚言語モデルを活用する新しい枠組みを提案する。
我々は、形状空間探索を支援するために、強力な事前学習型視覚言語モデルであるCLIPを活用することを提案する。
本研究では,2進誘導,テキスト誘導,スケッチ誘導の3つの探索モードを設計し,形状空間における適切な探索軌跡の特定と形状の有意義な変化を誘導する。
論文 参考訳(メタデータ) (2023-06-14T03:39:32Z) - ShapeClipper: Scalable 3D Shape Learning from Single-View Images via
Geometric and CLIP-based Consistency [39.7058456335011]
実世界のRGB画像から3次元オブジェクト形状を再構成する新しい手法であるShapeClipperを提案する。
ShapeClipperは、単一ビュー分割画像の集合から形状再構成を学習する。
実世界の3つの挑戦的データセットに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-04-13T03:53:12Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。