論文の概要: MVBoost: Boost 3D Reconstruction with Multi-View Refinement
- arxiv url: http://arxiv.org/abs/2411.17772v2
- Date: Mon, 02 Dec 2024 09:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 13:36:05.114930
- Title: MVBoost: Boost 3D Reconstruction with Multi-View Refinement
- Title(参考訳): MVBoost:マルチビューリファインメントによる3D再構築
- Authors: Xiangyu Liu, Xiaomei Zhang, Zhiyuan Ma, Xiangyu Zhu, Zhen Lei,
- Abstract要約: 多様な3Dデータセットの不足は、3D再構成モデルの限定的な一般化能力をもたらす。
擬似GTデータを生成し,多視点補正(MVBoost)により3次元再構成を促進する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.46372172076206
- License:
- Abstract: Recent advancements in 3D object reconstruction have been remarkable, yet most current 3D models rely heavily on existing 3D datasets. The scarcity of diverse 3D datasets results in limited generalization capabilities of 3D reconstruction models. In this paper, we propose a novel framework for boosting 3D reconstruction with multi-view refinement (MVBoost) by generating pseudo-GT data. The key of MVBoost is combining the advantages of the high accuracy of the multi-view generation model and the consistency of the 3D reconstruction model to create a reliable data source. Specifically, given a single-view input image, we employ a multi-view diffusion model to generate multiple views, followed by a large 3D reconstruction model to produce consistent 3D data. MVBoost then adaptively refines these multi-view images, rendered from the consistent 3D data, to build a large-scale multi-view dataset for training a feed-forward 3D reconstruction model. Additionally, the input view optimization is designed to optimize the corresponding viewpoints based on the user's input image, ensuring that the most important viewpoint is accurately tailored to the user's needs. Extensive evaluations demonstrate that our method achieves superior reconstruction results and robust generalization compared to prior works.
- Abstract(参考訳): 最近の3Dオブジェクト再構成の進歩は目覚ましいが、現在のほとんどの3Dモデルは既存の3Dデータセットに大きく依存している。
多様な3Dデータセットの不足は、3D再構成モデルの限定的な一般化能力をもたらす。
本稿では,擬似GTデータを生成することで,マルチビューリファインメント(MVBoost)による3次元再構築を促進する新しいフレームワークを提案する。
MVBoostの鍵となるのは、マルチビュー生成モデルの高精度と3D再構成モデルの整合性を組み合わせて信頼性の高いデータソースを作成することである。
具体的には、単一ビューの入力画像から複数のビューを生成するために多視点拡散モデルを使用し、続いて大きな3次元再構成モデルを用いて一貫した3次元データを生成する。
そしてMVBoostは、一貫性のある3Dデータからレンダリングされたこれらのマルチビュー画像を適応的に洗練し、フィードフォワード3D再構成モデルをトレーニングするための大規模なマルチビューデータセットを構築する。
さらに、入力ビュー最適化は、ユーザの入力画像に基づいて対応する視点を最適化するように設計されており、最も重要な視点がユーザのニーズに合わせて正確に調整されていることを保証する。
大規模な評価により,本手法は従来よりも優れた再構成結果とロバストな一般化を実現することが示された。
関連論文リスト
- Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。