Fugu-MT 論文翻訳(概要): MVGamba: Unify 3D Content Generation as State Space Sequence Modeling

論文の概要: MVGamba: Unify 3D Content Generation as State Space Sequence Modeling

arxiv url: http://arxiv.org/abs/2406.06367v3
Date: Mon, 16 Dec 2024 07:32:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:58.23815
Title: MVGamba: Unify 3D Content Generation as State Space Sequence Modeling
Title（参考訳）: MVGamba:ステートスペースシーケンスモデリングとして3Dコンテンツ生成を統合する
Authors: Xuanyu Yi, Zike Wu, Qiuhong Shen, Qingshan Xu, Pan Zhou, Joo-Hwee Lim, Shuicheng Yan, Xinchao Wang, Hanwang Zhang,
Abstract要約: 本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
参考スコア（独自算出の注目度）: 150.80564081817786
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent 3D large reconstruction models (LRMs) can generate high-quality 3D content in sub-seconds by integrating multi-view diffusion models with scalable multi-view reconstructors. Current works further leverage 3D Gaussian Splatting as 3D representation for improved visual quality and rendering efficiency. However, we observe that existing Gaussian reconstruction models often suffer from multi-view inconsistency and blurred textures. We attribute this to the compromise of multi-view information propagation in favor of adopting powerful yet computationally intensive architectures (e.g., Transformers). To address this issue, we introduce MVGamba, a general and lightweight Gaussian reconstruction model featuring a multi-view Gaussian reconstructor based on the RNN-like State Space Model (SSM). Our Gaussian reconstructor propagates causal context containing multi-view information for cross-view self-refinement while generating a long sequence of Gaussians for fine-detail modeling with linear complexity. With off-the-shelf multi-view diffusion models integrated, MVGamba unifies 3D generation tasks from a single image, sparse images, or text prompts. Extensive experiments demonstrate that MVGamba outperforms state-of-the-art baselines in all 3D content generation scenarios with approximately only $0.1\times$ of the model size.
Abstract（参考訳）: 近年の3次元大規模再構成モデル(LRM)は、多視点拡散モデルとスケーラブルな多視点再構成モデルを統合することにより、サブ秒間に高品質な3Dコンテンツを生成することができる。現在の作業では、視覚的品質とレンダリング効率を改善するために、3Dガウススプラッティングを3D表現として活用している。しかし,既存のガウス復元モデルは多視点の不整合やぼやけたテクスチャに悩まされることが多い。これは、強力な計算集約型アーキテクチャ(例えば、トランスフォーマー)を採用することを好むマルチビュー情報伝達の妥協によるものである。この問題に対処するために,RNN-like State Space Model (SSM)に基づく多視点ガウス再構成器を備えた汎用軽量ガウス再構成モデルであるMVGambaを紹介する。我々のガウス構造体は,多視点情報を含む因果関係を伝播し,線形複雑度を持つ細部モデリングのためのガウスの長い列を生成する。市販のマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。 MVGambaは、すべての3Dコンテンツ生成シナリオにおいて、およそ0.1\times$のモデルサイズで、最先端のベースラインを上回ります。

関連論文リスト

iLRM: An Iterative Large 3D Reconstruction Model [34.69940725179257]
本稿では,反復的改良機構を用いて3次元ガウス表現を生成する反復的大規模3次元再構成モデル(iLRM)を提案する。 RE10KやDL3DVといった広く使われているデータセットの実験結果から、iLRMは復元品質と速度の両方で既存の手法より優れていることが示されている。
論文参考訳（メタデータ） (2025-07-31T06:33:07Z)
F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文参考訳（メタデータ） (2025-01-12T04:44:44Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文参考訳（メタデータ） (2024-11-25T07:57:17Z)
UniG: Modelling Unitary 3D Gaussians for View-consistent 3D Reconstruction [20.089890859122168]
ビュー一貫性を持つ3次元再構成と新しいビュー合成モデルUniGを提案する。 UniGはスパース画像から3Dガウスの高忠実度表現を生成する。
論文参考訳（メタデータ） (2024-10-17T03:48:02Z)
Self-augmented Gaussian Splatting with Structure-aware Masks for Sparse-view 3D Reconstruction [9.953394373473621]
スパースビュー3D再構成は、コンピュータビジョンにおいて非常に難しい課題である。本稿では,構造対応マスクにより拡張された自己拡張型粗大なガウススプラッティングパラダイムを提案する。本手法は,知覚的品質と効率の両面において,スパース入力ビューの最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-09T03:09:22Z)
MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文参考訳（メタデータ） (2024-05-06T22:55:53Z)
InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models [66.83681825842135]
InstantMeshは、単一のイメージからインスタント3Dメッシュを生成するためのフィードフォワードフレームワークである。最新世代の品質とトレーニングのスケーラビリティが特徴だ。 InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献ができることを意図しています。
論文参考訳（メタデータ） (2024-04-10T17:48:37Z)
GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation [85.15374487533643]
約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。 GRMは、マルチビュー情報を効率的に組み込んだフィードフォワードトランスフォーマーベースのモデルである。また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。
論文参考訳（メタデータ） (2024-03-21T17:59:34Z)
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文参考訳（メタデータ） (2024-02-07T17:57:03Z)
DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文参考訳（メタデータ） (2023-11-15T18:58:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。