論文の概要: ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation
- arxiv url: http://arxiv.org/abs/2209.04145v1
- Date: Fri, 9 Sep 2022 06:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:46:26.869488
- Title: ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation
- Title(参考訳): ISS:テキストガイドによる3D形状生成のためのステッティングストーンとしてのイメージ
- Authors: Zhengzhe Liu, Peng Dai, Ruihui Li, Xiaojuan Qi, Chi-Wing Fu
- Abstract要約: 本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
- 参考スコア(独自算出の注目度): 91.37036638939622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided 3D shape generation remains challenging due to the absence of
large paired text-shape data, the substantial semantic gap between these two
modalities, and the structural complexity of 3D shapes. This paper presents a
new framework called Image as Stepping Stone (ISS) for the task by introducing
2D image as a stepping stone to connect the two modalities and to eliminate the
need for paired text-shape data. Our key contribution is a two-stage
feature-space-alignment approach that maps CLIP features to shapes by
harnessing a pre-trained single-view reconstruction (SVR) model with multi-view
supervisions: first map the CLIP image feature to the detail-rich shape space
in the SVR model, then map the CLIP text feature to the shape space and
optimize the mapping by encouraging CLIP consistency between the input text and
the rendered images. Further, we formulate a text-guided shape stylization
module to dress up the output shapes with novel textures. Beyond existing works
on 3D shape generation from text, our new approach is general for creating
shapes in a broad range of categories, without requiring paired text-shape
data. Experimental results manifest that our approach outperforms the
state-of-the-arts and our baselines in terms of fidelity and consistency with
text. Further, our approach can stylize the generated shapes with both
realistic and fantasy structures and textures.
- Abstract(参考訳): テキストガイドによる3次元形状生成は、大きなペアのテキスト形状データがないこと、これらの2つのモード間の実質的な意味的ギャップ、および3次元形状の構造的複雑さにより、依然として困難である。
本稿では,2次元イメージをステッピングストーンとして導入し,これら2つのモダリティを接続し,テキスト型データのペア化を不要とした,ステッピングストーン(iss)と呼ばれる新たな枠組みを提案する。
まず、クリップ画像の特徴をsvrモデルのディテールリッチな形状空間にマッピングし、次にクリップテキスト特徴を形状空間にマッピングし、入力テキストとレンダリング画像間のクリップ一貫性を奨励することにより、マッピングを最適化します。
さらに,テキストガイド型形状分類モジュールを定式化し,その出力形状を新しいテクスチャで表現する。
テキストから3d形状を生成する既存の作業以外にも、我々の新しいアプローチは、テキスト形式のデータをペアにすることなく、幅広いカテゴリの形状を作成するのに一般的です。
実験の結果,本手法はテキストの忠実性と一貫性の観点から,最先端とベースラインを上回っていることがわかった。
さらに,現実的,ファンタジー的な構造とテクスチャの両方で生成した形状をスタイリッシュすることができる。
関連論文リスト
- EXIM: A Hybrid Explicit-Implicit Representation for Text-Guided 3D Shape
Generation [124.27302003578903]
本稿では,3次元形状を生成するための新しいテキスト誘導手法を提案する。
我々は,明示的表現と暗黙的表現の強みを組み合わせたハイブリッド3D表現,すなわちEXIMを活用する。
テキスト誘導型3次元形状を用いた室内シーンを一貫したスタイルで生成する手法の適用性を示した。
論文 参考訳(メタデータ) (2023-11-03T05:01:51Z) - Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text
Aligned Latent Representation [47.945556996219295]
本稿では2次元画像やテキストに基づいて3次元形状を生成する新しいアライメント前世代手法を提案する。
我々のフレームワークは、形状-画像-テキスト対応変分自動エンコーダ(SITA-VAE)と条件付き形状遅延拡散モデル(ASLDM)の2つのモデルで構成されている。
論文 参考訳(メタデータ) (2023-06-29T17:17:57Z) - ShapeClipper: Scalable 3D Shape Learning from Single-View Images via
Geometric and CLIP-based Consistency [39.7058456335011]
実世界のRGB画像から3次元オブジェクト形状を再構成する新しい手法であるShapeClipperを提案する。
ShapeClipperは、単一ビュー分割画像の集合から形状再構成を学習する。
実世界の3つの挑戦的データセットに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-04-13T03:53:12Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - Towards Implicit Text-Guided 3D Shape Generation [81.22491096132507]
本研究は,テキストから3次元形状を生成するという課題について考察する。
テキスト記述にマッチする色で高忠実な形状を生成できるテキスト誘導型3次元形状生成のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-28T10:20:03Z) - Self-Supervised 2D Image to 3D Shape Translation with Disentangled
Representations [92.89846887298852]
本稿では,2次元画像ビューと3次元オブジェクト形状を翻訳するフレームワークを提案する。
形状変換のための自己教師型画像変換フレームワークであるSISTを提案する。
論文 参考訳(メタデータ) (2020-03-22T22:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。