Fugu-MT 論文翻訳(概要): DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model

論文の概要: DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model

arxiv url: http://arxiv.org/abs/2311.09217v1
Date: Wed, 15 Nov 2023 18:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 14:30:37.018996
Title: DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model
Title（参考訳）: DMV3D:3次元大規模再構成モデルによる多視点拡散の可視化
Authors: Yinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang
Abstract要約: textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
参考スコア（独自算出の注目度）: 86.37536249046943
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose \textbf{DMV3D}, a novel 3D generation approach that uses a transformer-based 3D large reconstruction model to denoise multi-view diffusion. Our reconstruction model incorporates a triplane NeRF representation and can denoise noisy multi-view images via NeRF reconstruction and rendering, achieving single-stage 3D generation in $\sim$30s on single A100 GPU. We train \textbf{DMV3D} on large-scale multi-view image datasets of highly diverse objects using only image reconstruction losses, without accessing 3D assets. We demonstrate state-of-the-art results for the single-image reconstruction problem where probabilistic modeling of unseen object parts is required for generating diverse reconstructions with sharp textures. We also show high-quality text-to-3D generation results outperforming previous 3D diffusion models. Our project website is at: https://justimyhxu.github.io/projects/dmv3d/ .
Abstract（参考訳）: 本稿では,トランスフォーマーを用いた3次元大規模再構成モデルを用いて多視点拡散を解消する,新しい3次元生成手法である \textbf{dmv3d} を提案する。再構成モデルでは, 3平面のNeRF表現を組み込んで, ノイズの多いマルチビュー画像をNeRF再構成とレンダリングによりノイズを除去し, 単一A100 GPU上で1段3D生成を$\sim$30sで達成する。 3dアセットにアクセスせずに,多彩なオブジェクトの大規模マルチビュー画像データセット上で,画像再構成損失のみを使用して, \textbf{dmv3d}をトレーニングする。シャープなテクスチャを持つ多種多様な再構成を生成するためには、未確認物体部品の確率的モデリングが必要である。また,従来の3次元拡散モデルよりも高品質なテキスト対3d生成結果を示す。私たちのプロジェクトwebサイトは、https://justimyhxu.github.io/projects/dmv3d/です。

関連論文リスト

Dream-to-Recon: Monocular 3D Reconstruction with Diffusion-Depth Distillation from Single Images [39.08243715525956]
本研究では,事前学習した2次元拡散モデルと深度予測モデルを用いて,単一画像から合成シーン形状を生成することを提案する。挑戦的なKITTI-360とデータセットに関する実験は、我々の手法が最先端のベースラインと一致しているか、あるいは性能を上回っていることを示している。
論文参考訳（メタデータ） (2025-08-04T11:43:12Z)
Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-12-16T18:58:17Z)
GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文参考訳（メタデータ） (2024-07-05T03:43:08Z)
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文参考訳（メタデータ） (2024-06-10T15:26:48Z)
MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文参考訳（メタデータ） (2024-05-06T22:55:53Z)
Magic-Boost: Boost 3D Generation with Multi-View Conditioned Diffusion [101.15628083270224]
本稿では,高忠実度新鮮映像を合成する多視点拡散モデルを提案する。次に,得られた粗い結果を精査するための厳密なガイダンスを提供するために,新しい反復更新戦略を導入する。実験の結果、Magic-Boostは粗いインプットを大幅に強化し、リッチな幾何学的およびテクスチュラルな詳細を持つ高品質な3Dアセットを生成する。
論文参考訳（メタデータ） (2024-04-09T16:20:03Z)
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。 IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文参考訳（メタデータ） (2024-02-13T18:59:51Z)
Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-05T19:00:45Z)
Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文参考訳（メタデータ） (2023-04-19T16:39:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。