論文の概要: Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
- arxiv url: http://arxiv.org/abs/2410.12781v1
- Date: Wed, 16 Oct 2024 17:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:02.278365
- Title: Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
- Title(参考訳): 広被覆ガウス平板のLong-LRM:Long-Sequence Large Restruction Model
- Authors: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu,
- Abstract要約: Long-LRMは、A100 80G GPUでわずか1.3秒で960x540の解像度で32のソース画像を処理できる。
入力画像の処理に制限のある以前のフィードフォワードモデルとは異なり、Long-LRMはシーン全体を単一のフィードフォワードステップで再構築する。
- 参考スコア(独自算出の注目度): 31.37432523412404
- License:
- Abstract: We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is capable of reconstructing a large scene from a long sequence of input images. Specifically, our model can process 32 source images at 960x540 resolution within only 1.3 seconds on a single A100 80G GPU. Our architecture features a mixture of the recent Mamba2 blocks and the classical transformer blocks which allowed many more tokens to be processed than prior work, enhanced by efficient token merging and Gaussian pruning steps that balance between quality and efficiency. Unlike previous feed-forward models that are limited to processing 1~4 input images and can only reconstruct a small portion of a large scene, Long-LRM reconstructs the entire scene in a single feed-forward step. On large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method achieves performance comparable to optimization-based approaches while being two orders of magnitude more efficient. Project page: https://arthurhero.github.io/projects/llrm
- Abstract(参考訳): 入力画像の長いシーケンスから大きなシーンを再構成できる一般化可能な3次元ガウス再構成モデルであるLong-LRMを提案する。
具体的には、1つのA100 80G GPUでわずか1.3秒で、32のソース画像を960x540解像度で処理できる。
我々のアーキテクチャは、最近のMamba2ブロックと古典的なトランスフォーマーブロックの混合を特徴とし、より多くのトークンを前処理よりも処理し、より効率的なトークンマージと、品質と効率のバランスをとるガウス式プルーニングステップによって強化した。
従来のフィードフォワードモデルとは異なり、1〜4入力画像の処理に制限があり、大きなシーンのごく一部しか再構成できないため、Long-LRMは1回のフィードフォワードステップでシーン全体を再構成する。
DL3DV-140 や Tanks and Temples のような大規模シーンデータセットでは,最適化手法に匹敵する性能を実現し,さらに2桁の効率が向上した。
プロジェクトページ:https://arthurhero.github.io/projects/llrm
関連論文リスト
- M-LRM: Multi-view Large Reconstruction Model [37.46572626325514]
M-LRM (Multi-view Large Restruction Model) は,高品位な3次元形状を多視点から3次元的に効率的に再構成するように設計されている。
大型再構成モデルと比較すると、提案したM-LRMは128倍の128ドルの高解像度の3次元形状のNeRFを生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting [49.32327147931905]
単一A100 GPU上で2-4のスパース画像から高品質な3Dガウス像を0.23秒で予測できるスケーラブルな大規模再構成モデルGS-LRMを提案する。
このモデルは非常に単純なトランスフォーマーベースアーキテクチャを特徴とし、入力されたイメージをパッチ化し、プリミティブなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡す。
論文 参考訳(メタデータ) (2024-04-30T16:47:46Z) - Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。
1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文 参考訳(メタデータ) (2024-03-27T17:40:14Z) - GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation [85.15374487533643]
約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。
GRMは、マルチビュー情報を効率的に組み込んだフィードフォワードトランスフォーマーベースのモデルである。
また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。
論文 参考訳(メタデータ) (2024-03-21T17:59:34Z) - U-shaped Vision Mamba for Single Image Dehazing [8.134659382415185]
本論文では,効率的なシングルイメージデハージングネットワークであるVision Mamba(UVM-Net)を紹介する。
The State Space Sequence Models (SSMs)は、長いシーケンスを扱うパワーで知られる新しいディープシークエンスモデルであり、Bi-SSMブロックを設計する。
I/O処理時間なしで325倍の325ドル解像度画像(100FPS)を推測するには,テキスト0.009秒しかかからない。
論文 参考訳(メタデータ) (2024-02-06T16:46:28Z) - LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-08T00:03:52Z) - Bayesian Image Reconstruction using Deep Generative Models [7.012708932320081]
本研究では,最先端(sota)生成モデルを用いて強力な画像先行モデルを構築する。
BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,異なる画像復元タスクを解く。
論文 参考訳(メタデータ) (2020-12-08T17:11:26Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。