Fugu-MT 論文翻訳(概要): GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation

論文の概要: GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation

arxiv url: http://arxiv.org/abs/2403.14621v1
Date: Thu, 21 Mar 2024 17:59:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 13:00:31.962214
Title: GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation
Title（参考訳）: GRM:高効率3次元再構成・生成のための大規模ガウス再構成モデル
Authors: Yinghao Xu, Zifan Shi, Wang Yifan, Hansheng Chen, Ceyuan Yang, Sida Peng, Yujun Shen, Gordon Wetzstein,
Abstract要約: 約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。 GRMは、マルチビュー情報を効率的に組み込んだフィードフォワードトランスフォーマーベースのモデルである。また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。
参考スコア（独自算出の注目度）: 85.15374487533643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce GRM, a large-scale reconstructor capable of recovering a 3D asset from sparse-view images in around 0.1s. GRM is a feed-forward transformer-based model that efficiently incorporates multi-view information to translate the input pixels into pixel-aligned Gaussians, which are unprojected to create a set of densely distributed 3D Gaussians representing a scene. Together, our transformer architecture and the use of 3D Gaussians unlock a scalable and efficient reconstruction framework. Extensive experimental results demonstrate the superiority of our method over alternatives regarding both reconstruction quality and efficiency. We also showcase the potential of GRM in generative tasks, i.e., text-to-3D and image-to-3D, by integrating it with existing multi-view diffusion models. Our project website is at: https://justimyhxu.github.io/projects/grm/.
Abstract（参考訳）: 約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。 GRMは、マルチビュー情報を効率よく組み込んだフィードフォワードトランスフォーマーベースのモデルであり、入力画素を画素整列ガウスに変換する。トランスフォーマーアーキテクチャと3Dガウシアンの使用により、スケーラブルで効率的な再構築フレームワークがアンロックされる。大規模な実験結果から,再建の質と効率の両面において,提案手法が代替手法よりも優れていることが示された。また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。プロジェクトのWebサイトは以下の通り。

関連論文リスト

Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation [51.36926306499593]
Prometheusはオブジェクトレベルとシーンレベルの両方を秒単位でテキストから3D生成するための3D対応潜時拡散モデルである。遅延拡散パラダイムにおいて、3Dシーン生成を多視点, フィードフォワード, ピクセルアラインな3Dガウス生成として定式化する。
論文参考訳（メタデータ） (2024-12-30T17:44:23Z)
NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文参考訳（メタデータ） (2024-11-25T07:57:17Z)
UniG: Modelling Unitary 3D Gaussians for View-consistent 3D Reconstruction [20.089890859122168]
ビュー一貫性を持つ3次元再構成と新しいビュー合成モデルUniGを提案する。 UniGはスパース画像から3Dガウスの高忠実度表現を生成する。
論文参考訳（メタデータ） (2024-10-17T03:48:02Z)
GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。 GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-06-21T17:49:31Z)
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文参考訳（メタデータ） (2024-06-10T15:26:48Z)
GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting [49.32327147931905]
単一A100 GPU上で2-4のスパース画像から高品質な3Dガウス像を0.23秒で予測できるスケーラブルな大規模再構成モデルGS-LRMを提案する。このモデルは非常に単純なトランスフォーマーベースアーキテクチャを特徴とし、入力されたイメージをパッチ化し、プリミティブなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡す。
論文参考訳（メタデータ） (2024-04-30T16:47:46Z)
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。 MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文参考訳（メタデータ） (2024-03-15T02:57:20Z)
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。 IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文参考訳（メタデータ） (2024-02-13T18:59:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。