論文の概要: IC3D: Image-Conditioned 3D Diffusion for Shape Generation
- arxiv url: http://arxiv.org/abs/2211.10865v3
- Date: Wed, 13 Sep 2023 12:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 18:31:36.400698
- Title: IC3D: Image-Conditioned 3D Diffusion for Shape Generation
- Title(参考訳): IC3D:形状生成のための画像合成3次元拡散
- Authors: Cristian Sbrolli, Paolo Cudrano, Matteo Frosi, Matteo Matteucci
- Abstract要約: Denoising Diffusion Probabilistic Models (DDPM) は様々な2次元生成タスクにおいて例外的な性能を示した。
我々は,CISP (Contrastive Image-Shape Pre-Training)を導入し,画像-形状の接合空間を適切に構成した。
次に,CISPの3次元形状生成誘導を利用するDDPMであるIC3Dを紹介する。
- 参考スコア(独自算出の注目度): 4.470499157873342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Denoising Diffusion Probabilistic Models (DDPMs) have
demonstrated exceptional performance in various 2D generative tasks. Following
this success, DDPMs have been extended to 3D shape generation, surpassing
previous methodologies in this domain. While many of these models are
unconditional, some have explored the potential of using guidance from
different modalities. In particular, image guidance for 3D generation has been
explored through the utilization of CLIP embeddings. However, these embeddings
are designed to align images and text, and do not necessarily capture the
specific details needed for shape generation. To address this limitation and
enhance image-guided 3D DDPMs with augmented 3D understanding, we introduce
CISP (Contrastive Image-Shape Pre-training), obtaining a well-structured
image-shape joint embedding space. Building upon CISP, we then introduce IC3D,
a DDPM that harnesses CISP's guidance for 3D shape generation from single-view
images. This generative diffusion model outperforms existing benchmarks in both
quality and diversity of generated 3D shapes. Moreover, despite IC3D's
generative nature, its generated shapes are preferred by human evaluators over
a competitive single-view 3D reconstruction model. These properties contribute
to a coherent embedding space, enabling latent interpolation and conditioned
generation also from out-of-distribution images. We find IC3D able to generate
coherent and diverse completions also when presented with occluded views,
rendering it applicable in controlled real-world scenarios.
- Abstract(参考訳): 近年, 拡散確率モデル (DDPM) は, 様々な2次元生成タスクにおいて異常な性能を示した。
この成功の後、ddpmは3次元形状生成に拡張され、この分野の以前の手法を上回っている。
これらのモデルの多くは無条件であるが、異なるモダリティからのガイダンスを使用することの可能性を探る者もいる。
特に,クリップ埋め込みを利用した3d生成のための画像ガイダンスが検討されている。
しかし、これらの埋め込みは画像とテキストを整列するように設計されており、必ずしも形状生成に必要な特定の詳細をキャプチャする必要はない。
この制限に対処し, 画像誘導型3次元DDPMの3次元理解を強化すべく, CISP(Contrastive Image-Shape Pre-training)を導入する。
CISPをベースとして,シングルビュー画像から3次元形状を生成するDDPMであるIC3Dを導入する。
この生成拡散モデルは、生成した3d形状の品質と多様性の両方において、既存のベンチマークを上回っている。
さらに, IC3Dの生成特性にも拘わらず, その生成形状は, 競争力のある単視点3D再構成モデルよりも, 人間の評価者に好まれる。
これらの性質はコヒーレントな埋め込み空間に寄与し、分散画像からも潜在補間と条件付き生成を可能にする。
IC3Dは、隠されたビューを提示して、制御された現実世界のシナリオに適用することができる。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Can Shape-Infused Joint Embeddings Improve Image-Conditioned 3D
Diffusion? [5.0243930429558885]
本研究では,CISP(Contrastive Image Shape Pre Training)を紹介する。
CISPは、共有埋め込み空間で2Dイメージと3D形状を整列させることで、CLIPフレームワークの強化を目指している。
CISPは、CLIPを生成品質と多様性でマッチングする一方で、入力画像とのコヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-02-02T09:09:23Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - 3D-LDM: Neural Implicit 3D Shape Generation with Latent Diffusion Models [8.583859530633417]
自動復号器の潜時空間で動作する3次元形状のニューラル暗黙表現のための拡散モデルを提案する。
これにより、多種多様な高品質な3D表面を生成できます。
論文 参考訳(メタデータ) (2022-12-01T20:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。