Fugu-MT 論文翻訳(概要): MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction

論文の概要: MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction

arxiv url: http://arxiv.org/abs/2402.12712v3
Date: Tue, 30 Apr 2024 04:11:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-01 19:18:28.768757
Title: MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction
Title（参考訳）: MVDiffusion++:シングル・スパース・ビュー3次元オブジェクト再構成のための高分解能多視点拡散モデル
Authors: Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan,
Abstract要約: 本稿では3次元オブジェクト再構成のためのニューラルネットワークMVDiffusion++を提案する。 MVDiffusion++は、カメラポーズなしで1つか数枚の画像が与えられたオブジェクトの高解像度で高解像度なビューを合成する。
参考スコア（独自算出の注目度）: 39.060125946193565
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a neural architecture MVDiffusion++ for 3D object reconstruction that synthesizes dense and high-resolution views of an object given one or a few images without camera poses. MVDiffusion++ achieves superior flexibility and scalability with two surprisingly simple ideas: 1) A ``pose-free architecture'' where standard self-attention among 2D latent features learns 3D consistency across an arbitrary number of conditional and generation views without explicitly using camera pose information; and 2) A ``view dropout strategy'' that discards a substantial number of output views during training, which reduces the training-time memory footprint and enables dense and high-resolution view synthesis at test time. We use the Objaverse for training and the Google Scanned Objects for evaluation with standard novel view synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly outperforms the current state of the arts. We also demonstrate a text-to-3D application example by combining MVDiffusion++ with a text-to-image generative model. The project page is at https://mvdiffusion-plusplus.github.io.
Abstract（参考訳）: 本稿では,3次元オブジェクト再構成のためのニューラルネットワークMVDiffusion++を提案する。 MVDiffusion++は2つの驚くほどシンプルなアイデアで優れた柔軟性とスケーラビリティを実現します。 1) カメラポーズ情報を明示的に使用せずに、任意の数の条件および生成ビューにまたがる3次元の一貫性を学習する2次元潜伏特徴間の標準的な自己意識を学習する「目的なしアーキテクチャ」。 2)「ビュードロップアウト戦略」は、トレーニング中にかなりの数のアウトプットビューを捨て、トレーニング時のメモリフットプリントを削減し、テスト時に高精細で高精細なビュー合成を可能にする。我々はObjaverseをトレーニングに使用し、Google Scanned Objectsを標準的な新しいビュー合成と3D再構成のメトリクスで評価し、MVDiffusion++は現在の最先端技術よりも大幅に優れています。また,MVDiffusion++とテキスト・ツー・イメージ生成モデルを組み合わせることで,テキスト・ツー・3Dアプリケーションの例を示す。プロジェクトのページはhttps://mvdiffusion-plus.github.ioにある。

関連論文リスト

MV-RAG: Retrieval Augmented Multiview Diffusion [9.039265525821303]
MV-RAGはテキストから3Dまでのパイプラインで、まず大きな2Dデータベースから関連する2D画像を取得する。このような検索条件付きモデルをトレーニングすることは、新しいハイブリッド戦略によって実現される。提案手法は,OOD/レア概念の3次元一貫性,フォトリアリズム,テキストアテンデンスを著しく改善する。
論文参考訳（メタデータ） (2025-08-22T17:59:40Z)
One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文参考訳（メタデータ） (2025-05-07T03:54:59Z)
MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文参考訳（メタデータ） (2024-11-25T07:34:23Z)
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文参考訳（メタデータ） (2024-05-06T22:55:53Z)
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文参考訳（メタデータ） (2024-02-07T17:57:03Z)
2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-29T02:30:31Z)
Sparse3D: Distilling Multiview-Consistent Diffusion for Object Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文参考訳（メタデータ） (2023-08-27T11:52:00Z)
Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文参考訳（メタデータ） (2023-06-13T16:18:51Z)
Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。 3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文参考訳（メタデータ） (2022-10-06T16:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。