論文の概要: AWOL: Analysis WithOut synthesis using Language
- arxiv url: http://arxiv.org/abs/2404.03042v1
- Date: Wed, 3 Apr 2024 20:04:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 16:44:51.934710
- Title: AWOL: Analysis WithOut synthesis using Language
- Title(参考訳): AWOL:言語を用いたOut合成による分析
- Authors: Silvia Zuffi, Michael J. Black,
- Abstract要約: 言語を利用して既存の3次元形状モデルを制御し、新しい形状を作り出す。
トレーニング中に存在しない新しい動物をテキストで生成できることが示されています。
この研究は、3D木を生成するための最初の言語駆動の手法でもある。
- 参考スコア(独自算出の注目度): 57.31874938870305
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many classical parametric 3D shape models exist, but creating novel shapes with such models requires expert knowledge of their parameters. For example, imagine creating a specific type of tree using procedural graphics or a new kind of animal from a statistical shape model. Our key idea is to leverage language to control such existing models to produce novel shapes. This involves learning a mapping between the latent space of a vision-language model and the parameter space of the 3D model, which we do using a small set of shape and text pairs. Our hypothesis is that mapping from language to parameters allows us to generate parameters for objects that were never seen during training. If the mapping between language and parameters is sufficiently smooth, then interpolation or generalization in language should translate appropriately into novel 3D shapes. We test our approach with two very different types of parametric shape models (quadrupeds and arboreal trees). We use a learned statistical shape model of quadrupeds and show that we can use text to generate new animals not present during training. In particular, we demonstrate state-of-the-art shape estimation of 3D dogs. This work also constitutes the first language-driven method for generating 3D trees. Finally, embedding images in the CLIP latent space enables us to generate animals and trees directly from images.
- Abstract(参考訳): 多くの古典的なパラメトリックな3次元形状モデルが存在するが、そのようなモデルで新しい形状を作るには、それらのパラメータについて専門的な知識が必要である。
例えば、手続き図を用いて特定の種類の木を作る、あるいは統計形状モデルから新しい種類の動物を想像してください。
私たちのキーとなるアイデアは、言語を活用して既存のモデルを制御し、新しい形状を作り出すことです。
これは、視覚言語モデルの潜在空間と3Dモデルのパラメータ空間の間のマッピングを学習することを含み、小さな形状とテキストペアを用いて行う。
私たちの仮説は、言語からパラメータへのマッピングによって、トレーニング中に見たことのないオブジェクトのパラメータを生成することができる、というものです。
言語とパラメータのマッピングが十分に滑らかであれば、言語の補間や一般化は、新しい3次元形状に適切に翻訳されるべきである。
我々は2種類のパラメトリック形状モデル(四重奏木とアーボリアル木)を用いてアプローチを検証した。
学習した四肢の統計形状モデルを用いて、トレーニング中に存在しない新しい動物をテキストで生成できることを示す。
特に,3次元犬の最先端形状推定について述べる。
この研究は、3D木を生成するための最初の言語駆動の手法でもある。
最後に、CLIP潜伏空間にイメージを埋め込むことで、画像から直接動物や木を生成することができる。
関連論文リスト
- SCULPT: Shape-Conditioned Unpaired Learning of Pose-dependent Clothed and Textured Human Meshes [62.82552328188602]
SCULPTは,人間の布とテクスチャを用いた3次元メッシュの新規な3次元生成モデルである。
我々は, 被服体の形状と外観分布を表現できるディープニューラルネットワークを考案した。
論文 参考訳(メタデータ) (2023-08-21T11:23:25Z) - Semantify: Simplifying the Control of 3D Morphable Models using CLIP [16.74483439465574]
Semantify: CLIP言語ビジョン基盤モデルのセマンティックパワーを利用する自己教師型手法。
身体形状モデル,顔形状モデル,表情モデル,動物形状モデルなど,多数の3DMMの結果を提示する。
論文 参考訳(メタデータ) (2023-08-14T19:07:26Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z) - Building 3D Generative Models from Minimal Data [3.472931603805115]
一つの3Dテンプレート(1人1人ではなく1人1人)で顔の認識が可能であることを示す。
我々は,1つの3次元テンプレートと少数の2次元画像を用いて,3次元顔の分布の学習を可能にする,予備的な教師なし学習フレームワークにモデルを拡張した。
論文 参考訳(メタデータ) (2022-03-04T20:10:50Z) - DOVE: Learning Deformable 3D Objects by Watching Videos [89.43105063468077]
本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。
本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
論文 参考訳(メタデータ) (2021-07-22T17:58:10Z) - Building 3D Morphable Models from a Single Scan [3.472931603805115]
本研究では,単一の3次元メッシュから3次元オブジェクトの生成モデルを構築する手法を提案する。
本手法はガウス過程で形状とアルベドを表す3次元形状モデルを生成する。
提案手法は, 単一の3次元スキャンのみを用いて顔認識を行うことができることを示す。
論文 参考訳(メタデータ) (2020-11-24T23:08:14Z) - ShapeAssembly: Learning to Generate Programs for 3D Shape Structure
Synthesis [38.27280837835169]
本研究では,3次元形状構造のためのドメイン固有の「アセンブリ言語」であるShapeAssemblyを提案する。
PartNetデータセットの既存の形状構造からShapeAssemblyプログラムを抽出する方法を示す。
生成したプログラムから出力される形状を、他の最近の形状構造モデルと比較することにより、我々のアプローチを評価する。
論文 参考訳(メタデータ) (2020-09-17T02:26:45Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z) - Unsupervised Shape and Pose Disentanglement for 3D Meshes [49.431680543840706]
本研究では,非教師付き環境において,非教師付き形状とポーズ表現を学習するための,シンプルで効果的なアプローチを提案する。
自己整合性と相互整合性の制約を組み合わせて、登録メッシュからポーズと空間の形状を学ぶ。
ポーズ転送や形状検索などのタスクを通じて,学習した表現の有用性を示す。
論文 参考訳(メタデータ) (2020-07-22T11:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。