論文の概要: Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
- arxiv url: http://arxiv.org/abs/2410.12781v2
- Date: Fri, 01 Aug 2025 04:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.429243
- Title: Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
- Title(参考訳): 広被覆ガウス平板のLong-LRM:Long-Sequence Large Restruction Model
- Authors: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu,
- Abstract要約: Long-LRMはフィードフォワード3次元ガウス再構成モデルであり、高速で高解像度、360度広視野、シーンレベルの再構成を行う。
解像度960x540の32の入力イメージを取り込み、1つのA100 GPUでわずか1秒で再構成を生成する。
大規模DL3DVベンチマークとTurps&TemplesでLong-LRMを評価し,最適化手法に匹敵する再現性を示した。
- 参考スコア(独自算出の注目度): 31.37432523412404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Long-LRM, a feed-forward 3D Gaussian reconstruction model for instant, high-resolution, 360{\deg} wide-coverage, scene-level reconstruction. Specifically, it takes in 32 input images at a resolution of 960x540 and produces the Gaussian reconstruction in just 1 second on a single A100 GPU. To handle the long sequence of 250K tokens brought by the large input size, Long-LRM features a mixture of the recent Mamba2 blocks and the classical transformer blocks, enhanced by a light-weight token merging module and Gaussian pruning steps that balance between quality and efficiency. We evaluate Long-LRM on the large-scale DL3DV benchmark and Tanks&Temples, demonstrating reconstruction quality comparable to the optimization-based methods while achieving an 800x speedup w.r.t. the optimization-based approaches and an input size at least 60x larger than the previous feed-forward approaches. We conduct extensive ablation studies on our model design choices for both rendering quality and computation efficiency. We also explore Long-LRM's compatibility with other Gaussian variants such as 2D GS, which enhances Long-LRM's ability in geometry reconstruction. Project page: https://arthurhero.github.io/projects/llrm
- Abstract(参考訳): フィードフォワード3次元ガウス再構成モデルであるLong-LRMを提案する。
具体的には、32の入力イメージを960x540の解像度で取得し、1つのA100 GPU上で1秒でガウス再構成を生成する。
入力サイズの大きい250Kトークンの長いシーケンスを扱うために、Long-LRMは最近のMamba2ブロックと古典的なトランスフォーマーブロックの混合を特徴とし、軽量トークンマージモジュールとガウスプルーニングステップによって強化され、品質と効率のバランスをとる。
大規模DL3DVベンチマークとTurps&TemplesでLong-LRMを評価し,最適化手法に匹敵する再現性を示すとともに,最適化に基づくアプローチの800倍の高速化と,前回のフィードフォワードアプローチの60倍以上の入力サイズを実現した。
我々は、レンダリング品質と計算効率の両面において、モデル設計の選択について広範囲にわたるアブレーション研究を行う。
また,Long-LRMの幾何再構成能力を高める2D GSなど,他のガウス変種との互換性についても検討する。
プロジェクトページ:https://arthurhero.github.io/projects/llrm
関連論文リスト
- LongSplat: Online Generalizable 3D Gaussian Splatting from Long Sequence Images [44.558724617615006]
LongSplatは、長時間画像入力のためのオンラインリアルタイム3Dガウス再構成フレームワークである。
GIRは3Dガウスパラメータを構造化されたイメージライクな2Dフォーマットにエンコードする。
LongSplatは、リアルタイムの新規ビュー合成において最先端の効率品質トレードオフを実現する。
論文 参考訳(メタデータ) (2025-07-22T01:43:51Z) - RelitLRM: Generative Relightable Radiance for Large Reconstruction Models [52.672706620003765]
本稿では,新しい照明下での3Dオブジェクトの高品質なガウススプレイティング表現を生成するためのRelitLRMを提案する。
複雑なキャプチャと遅い最適化を必要とする従来の逆レンダリングとは異なり、RelitLRMはフィードフォワードトランスフォーマーベースのモデルを採用している。
スパースビューフィードフォワードRelitLRMは、最先端の密集ビュー最適化ベースラインに対して、競争力のあるリライティング結果を提供する。
論文 参考訳(メタデータ) (2024-10-08T17:40:01Z) - M-LRM: Multi-view Large Reconstruction Model [37.46572626325514]
M-LRM (Multi-view Large Restruction Model) は,高品位な3次元形状を多視点から3次元的に効率的に再構成するように設計されている。
大型再構成モデルと比較すると、提案したM-LRMは128倍の128ドルの高解像度の3次元形状のNeRFを生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting [49.32327147931905]
単一A100 GPU上で2-4のスパース画像から高品質な3Dガウス像を0.23秒で予測できるスケーラブルな大規模再構成モデルGS-LRMを提案する。
このモデルは非常に単純なトランスフォーマーベースアーキテクチャを特徴とし、入力されたイメージをパッチ化し、プリミティブなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡す。
論文 参考訳(メタデータ) (2024-04-30T16:47:46Z) - MeshLRM: Large Reconstruction Model for High-Quality Meshes [52.71164862539288]
MeshLRMは、わずか4つの入力画像から1秒未満で高品質なメッシュを再構築することができる。
提案手法は,スパースビューからのメッシュ再構築を実現し,多くのダウンストリームアプリケーションを実現する。
論文 参考訳(メタデータ) (2024-04-18T17:59:41Z) - Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction [153.52406455209538]
Gambaは、単一のビューイメージからエンドツーエンドの3D再構成モデルである。
1つのNVIDIA A100 GPUで0.05秒以内に再構築が完了する。
論文 参考訳(メタデータ) (2024-03-27T17:40:14Z) - GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation [85.15374487533643]
約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。
GRMは、マルチビュー情報を効率的に組み込んだフィードフォワードトランスフォーマーベースのモデルである。
また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。
論文 参考訳(メタデータ) (2024-03-21T17:59:34Z) - U-shaped Vision Mamba for Single Image Dehazing [8.134659382415185]
本論文では,効率的なシングルイメージデハージングネットワークであるVision Mamba(UVM-Net)を紹介する。
The State Space Sequence Models (SSMs)は、長いシーケンスを扱うパワーで知られる新しいディープシークエンスモデルであり、Bi-SSMブロックを設計する。
I/O処理時間なしで325倍の325ドル解像度画像(100FPS)を推測するには,テキスト0.009秒しかかからない。
論文 参考訳(メタデータ) (2024-02-06T16:46:28Z) - LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-08T00:03:52Z) - Bayesian Image Reconstruction using Deep Generative Models [7.012708932320081]
本研究では,最先端(sota)生成モデルを用いて強力な画像先行モデルを構築する。
BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,異なる画像復元タスクを解く。
論文 参考訳(メタデータ) (2020-12-08T17:11:26Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。