論文の概要: CLIPXPlore: Coupled CLIP and Shape Spaces for 3D Shape Exploration
- arxiv url: http://arxiv.org/abs/2306.08226v1
- Date: Wed, 14 Jun 2023 03:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 20:36:12.344054
- Title: CLIPXPlore: Coupled CLIP and Shape Spaces for 3D Shape Exploration
- Title(参考訳): CLIPXPlore: 3次元形状探索のための複合CLIPと形状空間
- Authors: Jingyu Hu, Ka-Hei Hui, Zhengzhe liu, Hao Zhang and Chi-Wing Fu
- Abstract要約: 本稿では3次元形状空間の探索を導くために視覚言語モデルを活用する新しい枠組みを提案する。
我々は、形状空間探索を支援するために、強力な事前学習型視覚言語モデルであるCLIPを活用することを提案する。
本研究では,2進誘導,テキスト誘導,スケッチ誘導の3つの探索モードを設計し,形状空間における適切な探索軌跡の特定と形状の有意義な変化を誘導する。
- 参考スコア(独自算出の注目度): 53.623649386871016
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents CLIPXPlore, a new framework that leverages a
vision-language model to guide the exploration of the 3D shape space. Many
recent methods have been developed to encode 3D shapes into a learned latent
shape space to enable generative design and modeling. Yet, existing methods
lack effective exploration mechanisms, despite the rich information. To this
end, we propose to leverage CLIP, a powerful pre-trained vision-language model,
to aid the shape-space exploration. Our idea is threefold. First, we couple the
CLIP and shape spaces by generating paired CLIP and shape codes through sketch
images and training a mapper network to connect the two spaces. Second, to
explore the space around a given shape, we formulate a co-optimization strategy
to search for the CLIP code that better matches the geometry of the shape.
Third, we design three exploration modes, binary-attribute-guided, text-guided,
and sketch-guided, to locate suitable exploration trajectories in shape space
and induce meaningful changes to the shape. We perform a series of experiments
to quantitatively and visually compare CLIPXPlore with different baselines in
each of the three exploration modes, showing that CLIPXPlore can produce many
meaningful exploration results that cannot be achieved by the existing
solutions.
- Abstract(参考訳): 本稿では,3次元形状空間の探索を支援するために視覚言語モデルを活用した新しいフレームワークであるCLIPXPloreを提案する。
近年,3次元形状を学習された潜在形状空間にエンコードして生成設計とモデリングを可能にする手法が数多く開発されている。
しかし、豊富な情報にもかかわらず、既存の手法には効果的な探索機構がない。
そこで我々は,形状空間探索を支援するために,事前学習された視覚言語モデルである clip を活用することを提案する。
私たちの考えは3倍です。
まず,CLIPと形状空間をペアにし,スケッチ画像からCLIPと形状コードを生成し,2つの空間を接続するマッパーネットワークを訓練する。
第二に、与えられた形状の周囲の空間を探索するために、形状の幾何によくマッチするCLIPコードを探すための最適化戦略を定式化します。
第3に,2成分誘導,テキスト誘導,スケッチ誘導の3つの探索モードを設計し,形状空間における適切な探索軌跡を特定し,形状に有意な変化をもたらす。
我々は,CLIPXPloreを3つの探索モードごとに異なるベースラインと定量的かつ視覚的に比較する一連の実験を行い,既存のソリューションでは達成できない多くの有意義な探索結果が得られることを示した。
関連論文リスト
- Can Shape-Infused Joint Embeddings Improve Image-Conditioned 3D
Diffusion? [5.0243930429558885]
本研究では,CISP(Contrastive Image Shape Pre Training)を紹介する。
CISPは、共有埋め込み空間で2Dイメージと3D形状を整列させることで、CLIPフレームワークの強化を目指している。
CISPは、CLIPを生成品質と多様性でマッチングする一方で、入力画像とのコヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-02-02T09:09:23Z) - Unsupervised Representation Learning for Diverse Deformable Shape
Collections [30.271818994854353]
本稿では,3次元表面メッシュを符号化し,操作するための新しい学習手法を提案する。
本手法は,変形可能な形状収集のための解釈可能な埋め込み空間を作成するために設計されている。
論文 参考訳(メタデータ) (2023-10-27T13:45:30Z) - Explorable Mesh Deformation Subspaces from Unstructured Generative
Models [53.23510438769862]
3次元形状の深い生成モデルは、しばしば潜在的な変動を探索するために使用できる連続的な潜伏空間を特徴付ける。
本研究では,手軽に探索可能な2次元探索空間から事前学習された生成モデルのサブ空間へのマッピングを構築することで,与えられたランドマーク形状の集合間のバリエーションを探索する手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T18:53:57Z) - ShapeClipper: Scalable 3D Shape Learning from Single-View Images via
Geometric and CLIP-based Consistency [39.7058456335011]
実世界のRGB画像から3次元オブジェクト形状を再構成する新しい手法であるShapeClipperを提案する。
ShapeClipperは、単一ビュー分割画像の集合から形状再構成を学習する。
実世界の3つの挑戦的データセットに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-04-13T03:53:12Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes
from Natural Language [21.727938353786218]
CLIP-Sculptorは、トレーニング中に(テキスト、形状)ペアを必要とせずに、高忠実で多様な3次元形状を生成する方法である。
形状の多様性を向上させるために、CLIPのイメージテキスト埋め込み空間に条件付きトランスフォーマーを用いてモデル化した離散潜在空間を用いる。
論文 参考訳(メタデータ) (2022-11-02T18:50:25Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - Latent Partition Implicit with Surface Codes for 3D Representation [54.966603013209685]
一つの3次元形状を潜在空間の部品の集合として表現する新しい暗黙表現を導入する。
我々は,グローバルな形状モデリングを複数の局所的な部分モデリングにキャストする能力から,Latent Partition Implicit (LPI) と名付けた。
論文 参考訳(メタデータ) (2022-07-18T14:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。