論文の概要: 3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation
- arxiv url: http://arxiv.org/abs/2410.18974v1
- Date: Thu, 24 Oct 2024 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:21.795311
- Title: 3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation
- Title(参考訳): 3Dアダプタ:高品質3次元生成のための幾何整合多視点拡散
- Authors: Hansheng Chen, Bokui Shen, Yulin Liu, Ruoxi Shi, Linqi Zhou, Connor Z. Lin, Jiayuan Gu, Hao Su, Gordon Wetzstein, Leonidas Guibas,
- Abstract要約: 3D-Adapterは、3D幾何学的認識を事前訓練された画像拡散モデルに注入するために設計されたプラグインモジュールである。
Instant3DやZero123++のようなテキスト・ツー・マルチビューモデルの幾何学的品質を大幅に向上させることを示す。
また,テキスト・ツー・3D,画像・ツー・3D,テキスト・トゥ・テクスチャ,テキスト・トゥ・アバタータスクにおいて,高品質な結果を示すことで,3D-Adapterの幅広い応用可能性を示す。
- 参考スコア(独自算出の注目度): 45.218605449572586
- License:
- Abstract: Multi-view image diffusion models have significantly advanced open-domain 3D object generation. However, most existing models rely on 2D network architectures that lack inherent 3D biases, resulting in compromised geometric consistency. To address this challenge, we introduce 3D-Adapter, a plug-in module designed to infuse 3D geometry awareness into pretrained image diffusion models. Central to our approach is the idea of 3D feedback augmentation: for each denoising step in the sampling loop, 3D-Adapter decodes intermediate multi-view features into a coherent 3D representation, then re-encodes the rendered RGBD views to augment the pretrained base model through feature addition. We study two variants of 3D-Adapter: a fast feed-forward version based on Gaussian splatting and a versatile training-free version utilizing neural fields and meshes. Our extensive experiments demonstrate that 3D-Adapter not only greatly enhances the geometry quality of text-to-multi-view models such as Instant3D and Zero123++, but also enables high-quality 3D generation using the plain text-to-image Stable Diffusion. Furthermore, we showcase the broad application potential of 3D-Adapter by presenting high quality results in text-to-3D, image-to-3D, text-to-texture, and text-to-avatar tasks.
- Abstract(参考訳): マルチビュー画像拡散モデルでは、オープンドメインの3Dオブジェクト生成が大幅に進歩している。
しかし、既存のモデルのほとんどは、固有の3Dバイアスを持たない2Dネットワークアーキテクチャに依存しており、結果として幾何学的整合性が損なわれている。
この課題に対処するために,事前に訓練された画像拡散モデルに3次元幾何学的認識を注入するプラグインモジュールである3D-Adapterを導入する。
サンプリングループの各ステップにおいて、3D-Adapterは中間的なマルチビュー機能をコヒーレントな3D表現にデコードし、次にレンダリングされたRGBDビューを再エンコードして、事前訓練されたベースモデルを拡張する。
本稿では,ガウススプラッティングに基づく高速フィードフォワードバージョンと,ニューラルネットワークとメッシュを用いた多目的トレーニングフリーバージョンという,3D-Adapterの2つのバリエーションについて検討する。
Instant3DやZero123++のようなテキスト・ツー・マルチビューモデルの幾何学的品質を大幅に向上するだけでなく、平易なテキスト・ツー・イメージ・スタブル・ディフュージョンを用いた高品質な3D生成を可能にする。
さらに,テキスト・ツー・3D,画像・ツー・3D,テキスト・トゥ・テクスチャ,テキスト・トゥ・アバタータスクにおいて,高品質な結果を示すことで,3D-Adapterの幅広い応用可能性を示す。
関連論文リスト
- Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。
安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-09-05T17:21:54Z) - MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model [34.245635412589806]
MeshFormerはスパースビューリコンストラクションモデルで、3Dネイティブ構造、入力ガイダンス、トレーニングインスペクションを明示的に活用する。
2次元拡散モデルと統合することで、高速な単一像から3次元およびテキストから3次元のタスクを可能にする。
論文 参考訳(メタデータ) (2024-08-19T17:55:17Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer [26.375689838055774]
Direct3Dは、Wildの入力画像にスケーラブルなネイティブな3D生成モデルである。
提案手法は, 直接3次元変分オートエンコーダ(D3D-VAE)と直接3次元拡散変換器(D3D-DiT)の2成分からなる。
論文 参考訳(メタデータ) (2024-05-23T17:49:37Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。