Fugu-MT 論文翻訳(概要): MVD$^2$: Efficient Multiview 3D Reconstruction for Multiview Diffusion

論文の概要: MVD$^2$: Efficient Multiview 3D Reconstruction for Multiview Diffusion

arxiv url: http://arxiv.org/abs/2402.14253v1
Date: Thu, 22 Feb 2024 03:39:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 16:31:43.267654
Title: MVD$^2$: Efficient Multiview 3D Reconstruction for Multiview Diffusion
Title（参考訳）: mvd$^2$ : マルチビュー拡散のための効率的なマルチビュー3次元再構成
Authors: Xin-Yang Zheng and Hao Pan and Yu-Xiao Guo and Xin Tong and Yang Liu
Abstract要約: マルチビュー拡散(MVD)画像の効率的な3次元再構成法であるMVD$2$を提案する。 MVD$2$は、画像を投影と畳み込みによって3D機能ボリュームに集約し、ボリューム機能を3Dメッシュにデコードする。トレーニング後、マルチビューイメージから3Dメッシュを1秒以内に効率的にデコードできる。
参考スコア（独自算出の注目度）: 27.68132169849862
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As a promising 3D generation technique, multiview diffusion (MVD) has received a lot of attention due to its advantages in terms of generalizability, quality, and efficiency. By finetuning pretrained large image diffusion models with 3D data, the MVD methods first generate multiple views of a 3D object based on an image or text prompt and then reconstruct 3D shapes with multiview 3D reconstruction. However, the sparse views and inconsistent details in the generated images make 3D reconstruction challenging. We present MVD$^2$, an efficient 3D reconstruction method for multiview diffusion (MVD) images. MVD$^2$ aggregates image features into a 3D feature volume by projection and convolution and then decodes volumetric features into a 3D mesh. We train MVD$^2$ with 3D shape collections and MVD images prompted by rendered views of 3D shapes. To address the discrepancy between the generated multiview images and ground-truth views of the 3D shapes, we design a simple-yet-efficient view-dependent training scheme. MVD$^2$ improves the 3D generation quality of MVD and is fast and robust to various MVD methods. After training, it can efficiently decode 3D meshes from multiview images within one second. We train MVD$^2$ with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its superior performance in generating 3D models from multiview images generated by different MVD methods, using both synthetic and real images as prompts.
Abstract（参考訳）: 有望な3d生成技術として、マルチビュー拡散(mvd)は、汎用性、品質、効率の面での利点から多くの注目を集めている。 MVD法は3次元データを用いて事前学習した大規模画像拡散モデルを微調整することにより、まず画像やテキストのプロンプトに基づいて3次元オブジェクトの複数のビューを生成し、その後、マルチビュー3次元再構成で3次元形状を再構成する。しかし,生成画像の難易度と不整合により3次元再構成が困難となる。マルチビュー拡散(MVD)画像の効率的な3次元再構成法であるMVD$^2$を提案する。 MVD$^2$は、画像を投影と畳み込みによって3D特徴量に集約し、ボリューム特徴量を3Dメッシュにデコードする。 MVD$^2$の3次元形状コレクションと3次元形状のレンダリングビューによるMVD画像の訓練を行う。生成した多視点画像と3次元形状の地上視との相違に対処するため,簡易イエット効率のよいビュー依存型トレーニングスキームを設計した。 MVD$^2$は、MVDの3D生成品質を改善し、様々なMVD法に対して高速で堅牢である。トレーニング後、マルチビューイメージから3Dメッシュを1秒以内に効率的にデコードできる。我々は、Zero-123++とObjectVerse-LVIS 3Dデータセットを用いてMVD$^2$をトレーニングし、合成画像と実画像の両方をプロンプトとして、異なるMVD法で生成されたマルチビュー画像から3Dモデルを生成する際の優れた性能を示す。

関連論文リスト

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。 Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-02T16:59:55Z)
Bolt3D: Generating 3D Scenes in Seconds [77.592919825037]
1つ以上の画像が与えられた場合、Bolt3Dは1つのGPU上で7秒以内で直接3Dシーン表現をサンプリングします。 3次元再構成のためのシーンごとの最適化を必要とする従来のマルチビュー生成モデルと比較して、Bolt3Dは推論コストを最大300倍に削減する。
論文参考訳（メタデータ） (2025-03-18T17:24:19Z)
Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation [15.215597253086612]
我々は,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入する。 Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。
論文参考訳（メタデータ） (2024-12-03T17:58:07Z)
MVBoost: Boost 3D Reconstruction with Multi-View Refinement [41.46372172076206]
多様な3Dデータセットの不足は、3D再構成モデルの限定的な一般化能力をもたらす。擬似GTデータを生成し,多視点補正(MVBoost)により3次元再構成を促進する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-26T08:55:20Z)
3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation [45.218605449572586]
3D-Adapterは、3D幾何学的認識を事前訓練された画像拡散モデルに注入するために設計されたプラグインモジュールである。 Instant3DやZero123++のようなテキスト・ツー・マルチビューモデルの幾何学的品質を大幅に向上させることを示す。また,テキスト・ツー・3D,画像・ツー・3D,テキスト・トゥ・テクスチャ,テキスト・トゥ・アバタータスクにおいて,高品質な結果を示すことで,3D-Adapterの幅広い応用可能性を示す。
論文参考訳（メタデータ） (2024-10-24T17:59:30Z)
Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。 Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文参考訳（メタデータ） (2024-09-11T17:58:57Z)
MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文参考訳（メタデータ） (2024-05-06T22:55:53Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文参考訳（メタデータ） (2024-02-07T17:57:03Z)
DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文参考訳（メタデータ） (2023-11-15T18:58:41Z)
ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文参考訳（メタデータ） (2023-10-16T12:29:29Z)
MVDream: Multi-view Diffusion for 3D Generation [14.106283556521962]
本稿では,テキストプロンプトから一貫した多視点画像を生成可能な拡散モデルMVDreamを紹介する。 2次元データと3次元データの両方から学習すると、多視点拡散モデルは2次元拡散モデルの一般化可能性と3次元レンダリングの整合性を達成することができる。
論文参考訳（メタデータ） (2023-08-31T07:49:06Z)
Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文参考訳（メタデータ） (2022-04-05T12:59:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。