論文の概要: MVD$^2$: Efficient Multiview 3D Reconstruction for Multiview Diffusion
- arxiv url: http://arxiv.org/abs/2402.14253v1
- Date: Thu, 22 Feb 2024 03:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:31:43.267654
- Title: MVD$^2$: Efficient Multiview 3D Reconstruction for Multiview Diffusion
- Title(参考訳): mvd$^2$ : マルチビュー拡散のための効率的なマルチビュー3次元再構成
- Authors: Xin-Yang Zheng and Hao Pan and Yu-Xiao Guo and Xin Tong and Yang Liu
- Abstract要約: マルチビュー拡散(MVD)画像の効率的な3次元再構成法であるMVD$2$を提案する。
MVD$2$は、画像を投影と畳み込みによって3D機能ボリュームに集約し、ボリューム機能を3Dメッシュにデコードする。
トレーニング後、マルチビューイメージから3Dメッシュを1秒以内に効率的にデコードできる。
- 参考スコア(独自算出の注目度): 27.68132169849862
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As a promising 3D generation technique, multiview diffusion (MVD) has
received a lot of attention due to its advantages in terms of generalizability,
quality, and efficiency. By finetuning pretrained large image diffusion models
with 3D data, the MVD methods first generate multiple views of a 3D object
based on an image or text prompt and then reconstruct 3D shapes with multiview
3D reconstruction. However, the sparse views and inconsistent details in the
generated images make 3D reconstruction challenging. We present MVD$^2$, an
efficient 3D reconstruction method for multiview diffusion (MVD) images.
MVD$^2$ aggregates image features into a 3D feature volume by projection and
convolution and then decodes volumetric features into a 3D mesh. We train
MVD$^2$ with 3D shape collections and MVD images prompted by rendered views of
3D shapes. To address the discrepancy between the generated multiview images
and ground-truth views of the 3D shapes, we design a simple-yet-efficient
view-dependent training scheme. MVD$^2$ improves the 3D generation quality of
MVD and is fast and robust to various MVD methods. After training, it can
efficiently decode 3D meshes from multiview images within one second. We train
MVD$^2$ with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its
superior performance in generating 3D models from multiview images generated by
different MVD methods, using both synthetic and real images as prompts.
- Abstract(参考訳): 有望な3d生成技術として、マルチビュー拡散(mvd)は、汎用性、品質、効率の面での利点から多くの注目を集めている。
MVD法は3次元データを用いて事前学習した大規模画像拡散モデルを微調整することにより、まず画像やテキストのプロンプトに基づいて3次元オブジェクトの複数のビューを生成し、その後、マルチビュー3次元再構成で3次元形状を再構成する。
しかし,生成画像の難易度と不整合により3次元再構成が困難となる。
マルチビュー拡散(MVD)画像の効率的な3次元再構成法であるMVD$^2$を提案する。
MVD$^2$は、画像を投影と畳み込みによって3D特徴量に集約し、ボリューム特徴量を3Dメッシュにデコードする。
MVD$^2$の3次元形状コレクションと3次元形状のレンダリングビューによるMVD画像の訓練を行う。
生成した多視点画像と3次元形状の地上視との相違に対処するため,簡易イエット効率のよいビュー依存型トレーニングスキームを設計した。
MVD$^2$は、MVDの3D生成品質を改善し、様々なMVD法に対して高速で堅牢である。
トレーニング後、マルチビューイメージから3Dメッシュを1秒以内に効率的にデコードできる。
我々は、Zero-123++とObjectVerse-LVIS 3Dデータセットを用いてMVD$^2$をトレーニングし、合成画像と実画像の両方をプロンプトとして、異なるMVD法で生成されたマルチビュー画像から3Dモデルを生成する際の優れた性能を示す。
関連論文リスト
- MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion [33.69006364120861]
安定ビデオ3D(SV3D) - 3Dオブジェクトの周囲の高解像度・画像・マルチビュー生成のための潜時ビデオ拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T17:46:06Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - MVDream: Multi-view Diffusion for 3D Generation [14.106283556521962]
本稿では,テキストプロンプトから一貫した多視点画像を生成可能な拡散モデルMVDreamを紹介する。
2次元データと3次元データの両方から学習すると、多視点拡散モデルは2次元拡散モデルの一般化可能性と3次元レンダリングの整合性を達成することができる。
論文 参考訳(メタデータ) (2023-08-31T07:49:06Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。