論文の概要: DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation
- arxiv url: http://arxiv.org/abs/2303.15181v2
- Date: Sat, 9 Sep 2023 23:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 17:19:08.604664
- Title: DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation
- Title(参考訳): DreamStone:テキストガイドによる3D形状生成のためのステッピングストーンとしてのイメージ
- Authors: Zhengzhe Liu, Peng Dai, Ruihui Li, Xiaojuan Qi, Chi-Wing Fu
- Abstract要約: テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
- 参考スコア(独自算出の注目度): 105.97545053660619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a new text-guided 3D shape generation approach
DreamStone that uses images as a stepping stone to bridge the gap between text
and shape modalities for generating 3D shapes without requiring paired text and
3D data. The core of our approach is a two-stage feature-space alignment
strategy that leverages a pre-trained single-view reconstruction (SVR) model to
map CLIP features to shapes: to begin with, map the CLIP image feature to the
detail-rich 3D shape space of the SVR model, then map the CLIP text feature to
the 3D shape space through encouraging the CLIP-consistency between rendered
images and the input text. Besides, to extend beyond the generative capability
of the SVR model, we design a text-guided 3D shape stylization module that can
enhance the output shapes with novel structures and textures. Further, we
exploit pre-trained text-to-image diffusion models to enhance the generative
diversity, fidelity, and stylization capability. Our approach is generic,
flexible, and scalable, and it can be easily integrated with various SVR models
to expand the generative space and improve the generative fidelity. Extensive
experimental results demonstrate that our approach outperforms the
state-of-the-art methods in terms of generative quality and consistency with
the input text. Codes and models are released at
https://github.com/liuzhengzhe/DreamStone-ISS.
- Abstract(参考訳): 本稿では,画像を踏み台として,テキストと形状のギャップを橋渡しし,テキストと3dデータを必要としない3d形状を生成する,テキストガイド付き3d形状生成手法dreamstoneを提案する。
提案手法のコアとなるのは,CLIP 画像の特徴を SVR モデルの詳細な3次元形状空間にマッピングし,CLIP のテキスト特徴を描画画像と入力テキスト間のCLIP 一貫性を奨励することで,CLIP のテキスト特徴を3次元形状空間にマッピングする,事前訓練された単一ビュー再構成(SVR)モデルを活用する2段階の機能空間アライメント戦略である。
さらに,svrモデルの生成能力を超えて,新たな構造やテクスチャで出力形状を向上できるテキスト誘導型3d形状スタイライゼーションモジュールも設計する。
さらに,事前学習したテキストから画像への拡散モデルを用いて,生成的多様性,忠実度,スタイライゼーション能力を高める。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合して生成空間を拡大し、生成精度を向上させることができる。
広範な実験結果から,本手法は,生成的品質と入力テキストとの一貫性の観点から,最先端手法よりも優れていることが示された。
コードとモデルはhttps://github.com/liuzhengzhe/DreamStone-ISSで公開されている。
関連論文リスト
- EXIM: A Hybrid Explicit-Implicit Representation for Text-Guided 3D Shape
Generation [124.27302003578903]
本稿では,3次元形状を生成するための新しいテキスト誘導手法を提案する。
我々は,明示的表現と暗黙的表現の強みを組み合わせたハイブリッド3D表現,すなわちEXIMを活用する。
テキスト誘導型3次元形状を用いた室内シーンを一貫したスタイルで生成する手法の適用性を示した。
論文 参考訳(メタデータ) (2023-11-03T05:01:51Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text
Aligned Latent Representation [47.945556996219295]
本稿では2次元画像やテキストに基づいて3次元形状を生成する新しいアライメント前世代手法を提案する。
我々のフレームワークは、形状-画像-テキスト対応変分自動エンコーダ(SITA-VAE)と条件付き形状遅延拡散モデル(ASLDM)の2つのモデルで構成されている。
論文 参考訳(メタデータ) (2023-06-29T17:17:57Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and
Text-to-Image Diffusion Models [44.34479731617561]
我々はCLIP誘導3次元最適化プロセスに明示的な3次元形状前処理を導入する。
テキストと画像のモダリティを直接、強力なテキストと画像の拡散モデルでブリッジする、シンプルで効果的なアプローチを提案する。
提案手法であるDream3Dは,視覚的品質と形状の精度に優れた想像的3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2022-12-28T18:23:47Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - Text to Mesh Without 3D Supervision Using Limit Subdivision [13.358081015190255]
本稿では,ターゲットテキストプロンプトのみを用いた3次元モデルのゼロショット生成手法を提案する。
入力テキストプロンプトを3Dモデルの異なるレンダリング画像と比較する、事前訓練されたCLIPモデルに依存しています。
論文 参考訳(メタデータ) (2022-03-24T20:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。