論文の概要: Can Shape-Infused Joint Embeddings Improve Image-Conditioned 3D
Diffusion?
- arxiv url: http://arxiv.org/abs/2402.01241v1
- Date: Fri, 2 Feb 2024 09:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:18:21.270989
- Title: Can Shape-Infused Joint Embeddings Improve Image-Conditioned 3D
Diffusion?
- Title(参考訳): shape-infused joint embeddedsは3次元画像拡散を改善できるか?
- Authors: Cristian Sbrolli, Paolo Cudrano, Matteo Matteucci
- Abstract要約: 本研究では,CISP(Contrastive Image Shape Pre Training)を紹介する。
CISPは、共有埋め込み空間で2Dイメージと3D形状を整列させることで、CLIPフレームワークの強化を目指している。
CISPは、CLIPを生成品質と多様性でマッチングする一方で、入力画像とのコヒーレンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 5.0243930429558885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in deep generative models, particularly with the
application of CLIP (Contrastive Language Image Pretraining) to Denoising
Diffusion Probabilistic Models (DDPMs), have demonstrated remarkable
effectiveness in text to image generation. The well structured embedding space
of CLIP has also been extended to image to shape generation with DDPMs,
yielding notable results. Despite these successes, some fundamental questions
arise: Does CLIP ensure the best results in shape generation from images? Can
we leverage conditioning to bring explicit 3D knowledge into the generative
process and obtain better quality? This study introduces CISP (Contrastive
Image Shape Pre training), designed to enhance 3D shape synthesis guided by 2D
images. CISP aims to enrich the CLIP framework by aligning 2D images with 3D
shapes in a shared embedding space, specifically capturing 3D characteristics
potentially overlooked by CLIP's text image focus. Our comprehensive analysis
assesses CISP's guidance performance against CLIP guided models, focusing on
generation quality, diversity, and coherence of the produced shapes with the
conditioning image. We find that, while matching CLIP in generation quality and
diversity, CISP substantially improves coherence with input images,
underscoring the value of incorporating 3D knowledge into generative models.
These findings suggest a promising direction for advancing the synthesis of 3D
visual content by integrating multimodal systems with 3D representations.
- Abstract(参考訳): 近年の深層生成モデル,特にCLIP(Contrastive Language Image Pretraining)の拡散確率モデル(DDPM)への応用により,テキストから画像生成への顕著な効果が示された。
CLIPのよく構造化された埋め込み空間もDDPMを用いて画像から形状生成に拡張され、顕著な結果が得られた。
これらの成功にもかかわらず、いくつかの根本的な疑問が生じる。 CLIPは画像から形状を生成する最良の結果を保証するか?
条件付けを利用して、明確な3D知識を生成プロセスに持ち込み、より良い品質を得ることができるか?
本研究では,2次元画像による3次元形状合成の促進を目的としたcisp(contrastive image shape pre training)を提案する。
CISPは、CLIPフレームワークの強化を目的として、2Dイメージと3D形状を共有埋め込み空間に整列させ、特にCLIPのテキストイメージフォーカスで見落とされがちな3D特性をキャプチャする。
我々は,CLIP誘導モデルに対するCISPのガイダンス性能を評価し,生成した形状と条件付き画像の質,多様性,コヒーレンスに着目した。
CISPは、CLIPを生成品質と多様性でマッチングしながら、入力画像とのコヒーレンスを大幅に改善し、生成モデルに3D知識を組み込むことの価値を強調している。
これらの結果は,マルチモーダルシステムと3次元表現の統合により,3次元視覚コンテンツの合成を前進させる有望な方向性を示唆する。
関連論文リスト
- Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - IC3D: Image-Conditioned 3D Diffusion for Shape Generation [4.470499157873342]
Denoising Diffusion Probabilistic Models (DDPM) は様々な2次元生成タスクにおいて例外的な性能を示した。
我々は,CISP (Contrastive Image-Shape Pre-Training)を導入し,画像-形状の接合空間を適切に構成した。
次に,CISPの3次元形状生成誘導を利用するDDPMであるIC3Dを紹介する。
論文 参考訳(メタデータ) (2022-11-20T04:21:42Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z) - Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。
本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。
本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-15T08:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。