Fugu-MT 論文翻訳(概要): IC3D: Image-Conditioned 3D Diffusion for Shape Generation

論文の概要: IC3D: Image-Conditioned 3D Diffusion for Shape Generation

arxiv url: http://arxiv.org/abs/2211.10865v2
Date: Fri, 31 Mar 2023 18:43:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 00:10:02.420377
Title: IC3D: Image-Conditioned 3D Diffusion for Shape Generation
Title（参考訳）: IC3D:形状生成のための画像合成3次元拡散
Authors: Cristian Sbrolli, Paolo Cudrano, Matteo Frosi, Matteo Matteucci
Abstract要約: IC3Dはイメージガイドにより3次元形状を生成する3次元拡散モデルである。コントラスト画像-形状事前学習(Contrastive Image-Shape Pre-training)は、コントラスト画像と形状をコントラスト事前学習により結合的に埋め込むモデルである。生成拡散モデルは,3次元生成品質と多様性の最先端性を上回っている。
参考スコア（独自算出の注目度）: 7.0895962209555465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the last years, Denoising Diffusion Probabilistic Models (DDPMs) obtained state-of-the-art results in many generative tasks, outperforming GANs and other classes of generative models. In particular, they reached impressive results in various image generation sub-tasks, among which conditional generation tasks such as text-guided image synthesis. Given the success of DDPMs in 2D generation, they have more recently been applied to 3D shape generation, outperforming previous approaches and reaching state-of-the-art results. However, these existing 3D DDPM works make little or no use of guidance, mainly being unconditional or class-conditional. In this work, we present IC3D, an Image-Conditioned 3D Diffusion model that generates 3D shapes by image guidance. To guide our DDPM, we introduce CISP (Contrastive Image-Shape Pre-training), a model jointly embedding images and shapes by contrastive pre-training, inspired by the literature on text-to-image DDPMs. Our generative diffusion model outperforms the state-of-the-art in 3D generation quality and diversity. Furthermore, despite IC3D generative nature, we show that its generated shapes are preferred by human evaluators to a SoTA single-view 3D reconstruction model in terms of quality and coherence to the query image by running a side-by-side human evaluation. Ablation studies show the importance of CISP for learning structural integrity properties, crucial for realistic generation. Such biases yield a regular embedding space and allow for interpolation and conditioning on out-of-distribution images, while also making IC3D capable of generating coherent but diverse completions of occluded views and enabling its adoption in controlled real-life applications.
Abstract（参考訳）: ここ数年、拡散確率モデル(DDPM)は、多くの生成タスクにおいて、GANやその他の生成モデルのクラスを上回る結果を得た。特に、テキスト誘導画像合成などの条件付きタスクを含む様々な画像生成サブタスクにおいて、印象的な結果に達した。 2次元生成におけるDDPMの成功を考えると、より最近では3次元形状生成、従来の手法よりも優れ、最先端の結果に到達している。しかし、これらの既存の3D DDPM作業は、主に無条件またはクラス条件のガイダンスをほとんど、あるいは全く利用しない。本研究では,画像誘導により3次元形状を生成する3次元拡散モデルic3dを提案する。 CISP(Contrastive Image-Shape Pre-Training)は,テキストから画像へのDDPMに関する文献から着想を得た,コントラスト的な事前学習による画像と形状の埋め込みモデルである。我々の生成拡散モデルは3次元生成品質と多様性の最先端性を上回る。さらに,IC3D生成特性にも拘わらず,人間の評価により生成した形状が,クエリ画像の品質とコヒーレンスの観点から,SoTAの単一ビュー3D再構成モデルよりも好まれることを示す。アブレーション研究は、構造的整合性を学ぶためにCISPが重要であることを示している。このようなバイアスは正規な埋め込み空間をもたらし、分布外画像の補間と条件付けを可能にし、IC3Dは閉鎖されたビューのコヒーレントで多様な補完を発生させ、制御された現実のアプリケーションにその適用を可能にする。

関連論文リスト

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。 3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文参考訳（メタデータ） (2025-02-10T16:07:54Z)
F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文参考訳（メタデータ） (2025-01-12T04:44:44Z)
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文参考訳（メタデータ） (2024-11-12T18:59:32Z)
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。 3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文参考訳（メタデータ） (2024-10-12T10:14:11Z)
GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。 GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-06-21T17:49:31Z)
LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文参考訳（メタデータ） (2024-05-24T15:09:12Z)
NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-27T04:09:34Z)
ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文参考訳（メタデータ） (2024-03-19T03:39:43Z)
Can Shape-Infused Joint Embeddings Improve Image-Conditioned 3D Diffusion? [5.0243930429558885]
本研究では,CISP(Contrastive Image Shape Pre Training)を紹介する。 CISPは、共有埋め込み空間で2Dイメージと3D形状を整列させることで、CLIPフレームワークの強化を目指している。 CISPは、CLIPを生成品質と多様性でマッチングする一方で、入力画像とのコヒーレンスを大幅に改善する。
論文参考訳（メタデータ） (2024-02-02T09:09:23Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)
3D-LDM: Neural Implicit 3D Shape Generation with Latent Diffusion Models [8.583859530633417]
自動復号器の潜時空間で動作する3次元形状のニューラル暗黙表現のための拡散モデルを提案する。これにより、多種多様な高品質な3D表面を生成できます。
論文参考訳（メタデータ） (2022-12-01T20:00:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。