論文の概要: Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text
Aligned Latent Representation
- arxiv url: http://arxiv.org/abs/2306.17115v2
- Date: Mon, 3 Jul 2023 12:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 10:14:28.387913
- Title: Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text
Aligned Latent Representation
- Title(参考訳): ミケランジェロ:形状画像テキスト適応潜在表現に基づく条件付き3次元形状生成
- Authors: Zibo Zhao, Wen Liu, Xin Chen, Xianfang Zeng, Rui Wang, Pei Cheng, Bin
Fu, Tao Chen, Gang Yu and Shenghua Gao
- Abstract要約: 本稿では2次元画像やテキストに基づいて3次元形状を生成する新しいアライメント前世代手法を提案する。
我々のフレームワークは、形状-画像-テキスト対応変分自動エンコーダ(SITA-VAE)と条件付き形状遅延拡散モデル(ASLDM)の2つのモデルで構成されている。
- 参考スコア(独自算出の注目度): 47.945556996219295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel alignment-before-generation approach to tackle the
challenging task of generating general 3D shapes based on 2D images or texts.
Directly learning a conditional generative model from images or texts to 3D
shapes is prone to producing inconsistent results with the conditions because
3D shapes have an additional dimension whose distribution significantly differs
from that of 2D images and texts. To bridge the domain gap among the three
modalities and facilitate multi-modal-conditioned 3D shape generation, we
explore representing 3D shapes in a shape-image-text-aligned space. Our
framework comprises two models: a Shape-Image-Text-Aligned Variational
Auto-Encoder (SITA-VAE) and a conditional Aligned Shape Latent Diffusion Model
(ASLDM). The former model encodes the 3D shapes into the shape latent space
aligned to the image and text and reconstructs the fine-grained 3D neural
fields corresponding to given shape embeddings via the transformer-based
decoder. The latter model learns a probabilistic mapping function from the
image or text space to the latent shape space. Our extensive experiments
demonstrate that our proposed approach can generate higher-quality and more
diverse 3D shapes that better semantically conform to the visual or textural
conditional inputs, validating the effectiveness of the
shape-image-text-aligned space for cross-modality 3D shape generation.
- Abstract(参考訳): 本稿では,2次元画像やテキストから一般的な3次元形状を生成するという課題に対処する新しいアライメント・前世代手法を提案する。
画像やテキストから3次元形状への条件生成モデルを直接学習することは,3次元形状が2次元画像やテキストと大きく異なる追加次元を持つため,条件と矛盾する結果を生み出す傾向にある。
3つのモード間の領域ギャップを埋め、マルチモーダル条件の3次元形状生成を容易にするために、形状-画像-テキスト整列空間における3次元形状を表現する。
本フレームワークは,形状-画像-テキスト対応変分自動エンコーダ (SITA-VAE) と条件付き形状遅延拡散モデル (ASLDM) の2つのモデルからなる。
前者は3d形状を画像とテキストに整列した形状潜在空間にエンコードし、トランスベースのデコーダを介して所定の形状埋め込みに対応する細粒度の3dニューラルフィールドを再構成する。
後者のモデルは、画像またはテキスト空間から潜在形状空間への確率的マッピング関数を学習する。
提案手法は,視覚条件入力やテクスチャ条件入力に合致した高品位かつ多彩な3次元形状を生成でき,形状・画像・テキスト対応空間の有効性を検証できることを示す。
関連論文リスト
- NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - Explorable Mesh Deformation Subspaces from Unstructured Generative
Models [53.23510438769862]
3次元形状の深い生成モデルは、しばしば潜在的な変動を探索するために使用できる連続的な潜伏空間を特徴付ける。
本研究では,手軽に探索可能な2次元探索空間から事前学習された生成モデルのサブ空間へのマッピングを構築することで,与えられたランドマーク形状の集合間のバリエーションを探索する手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T18:53:57Z) - Locally Attentional SDF Diffusion for Controllable 3D Shape Generation [24.83724829092307]
本研究では,2次元スケッチ画像入力を用いて3次元形状をモデル化する拡散型3次元生成フレームワークを提案する。
本手法は, 2段階拡散モデルを用いて構築され, その第1段階である占有拡散は, 低分解能占有場を生成し, 形状シェルを近似することを目的としている。
SDF拡散と呼ばれる第2段階は、第1段階によって決定された占有ボクセル内の高分解能符号距離場を合成し、微細な幾何を抽出する。
論文 参考訳(メタデータ) (2023-05-08T05:07:23Z) - 3D-LDM: Neural Implicit 3D Shape Generation with Latent Diffusion Models [8.583859530633417]
自動復号器の潜時空間で動作する3次元形状のニューラル暗黙表現のための拡散モデルを提案する。
これにより、多種多様な高品質な3D表面を生成できます。
論文 参考訳(メタデータ) (2022-12-01T20:00:00Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - Deformed Implicit Field: Modeling 3D Shapes with Learned Dense
Correspondence [30.849927968528238]
本稿では,カテゴリの3次元形状をモデル化するための新しいDeformed Implicit Field表現を提案する。
我々のニューラルネットワーク、DIF-Netは、カテゴリに属する3Dオブジェクトの形状潜在空間とこれらのフィールドを共同で学習する。
実験により、DIF-Netは高忠実度3次元形状を生成するだけでなく、異なる形状の高品位密度対応を生成することが示された。
論文 参考訳(メタデータ) (2020-11-27T10:45:26Z) - Self-Supervised 2D Image to 3D Shape Translation with Disentangled
Representations [92.89846887298852]
本稿では,2次元画像ビューと3次元オブジェクト形状を翻訳するフレームワークを提案する。
形状変換のための自己教師型画像変換フレームワークであるSISTを提案する。
論文 参考訳(メタデータ) (2020-03-22T22:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。