論文の概要: GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2404.19702v1
- Date: Tue, 30 Apr 2024 16:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:26:28.693750
- Title: GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting
- Title(参考訳): GS-LRM:3次元ガウス平滑化のための大規模再構成モデル
- Authors: Kai Zhang, Sai Bi, Hao Tan, Yuanbo Xiangli, Nanxuan Zhao, Kalyan Sunkavalli, Zexiang Xu,
- Abstract要約: 単一A100 GPU上で2-4のスパース画像から高品質な3Dガウス像を0.23秒で予測できるスケーラブルな大規模再構成モデルGS-LRMを提案する。
このモデルは非常に単純なトランスフォーマーベースアーキテクチャを特徴とし、入力されたイメージをパッチ化し、プリミティブなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡す。
- 参考スコア(独自算出の注目度): 49.32327147931905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose GS-LRM, a scalable large reconstruction model that can predict high-quality 3D Gaussian primitives from 2-4 posed sparse images in 0.23 seconds on single A100 GPU. Our model features a very simple transformer-based architecture; we patchify input posed images, pass the concatenated multi-view image tokens through a sequence of transformer blocks, and decode final per-pixel Gaussian parameters directly from these tokens for differentiable rendering. In contrast to previous LRMs that can only reconstruct objects, by predicting per-pixel Gaussians, GS-LRM naturally handles scenes with large variations in scale and complexity. We show that our model can work on both object and scene captures by training it on Objaverse and RealEstate10K respectively. In both scenarios, the models outperform state-of-the-art baselines by a wide margin. We also demonstrate applications of our model in downstream 3D generation tasks. Our project webpage is available at: https://sai-bi.github.io/project/gs-lrm/ .
- Abstract(参考訳): GS-LRMは,高画質な3次元ガウスプリミティブを2-4面のスパース画像から1つのA100 GPUで0.23秒で予測できる,スケーラブルな大規模再構成モデルである。
このモデルは非常に単純なトランスフォーマーベースのアーキテクチャを特徴とし、入力されたイメージをパッチ化し、コンカレントなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡し、最終的なガウスパラメータをこれらのトークンから直接デコードしてレンダリングする。
画素ごとのガウスを予測することでオブジェクトを再構成する以前のLEMとは対照的に、GS-LRMはスケールと複雑さに大きなバリエーションを持つシーンを自然に扱う。
我々は,ObjaverseとRealEstate10Kでオブジェクトキャプチャとシーンキャプチャの両方をトレーニングすることで,モデルが動作可能であることを示す。
どちらのシナリオでも、モデルは最先端のベースラインよりも広いマージンで優れています。
また、下流3D生成タスクにおけるモデルの適用例を示す。
プロジェクトのWebページは以下の通りである。
関連論文リスト
- SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats [31.37432523412404]
Long-LRMは、A100 80G GPUでわずか1.3秒で960x540の解像度で32のソース画像を処理できる。
入力画像の処理に制限のある以前のフィードフォワードモデルとは異なり、Long-LRMはシーン全体を単一のフィードフォワードステップで再構築する。
論文 参考訳(メタデータ) (2024-10-16T17:54:06Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation [85.15374487533643]
約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。
GRMは、マルチビュー情報を効率的に組み込んだフィードフォワードトランスフォーマーベースのモデルである。
また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。
論文 参考訳(メタデータ) (2024-03-21T17:59:34Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-08T00:03:52Z) - Bayesian Image Reconstruction using Deep Generative Models [7.012708932320081]
本研究では,最先端(sota)生成モデルを用いて強力な画像先行モデルを構築する。
BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,異なる画像復元タスクを解く。
論文 参考訳(メタデータ) (2020-12-08T17:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。