論文の概要: Long-LRM++: Preserving Fine Details in Feed-Forward Wide-Coverage Reconstruction
- arxiv url: http://arxiv.org/abs/2512.10267v1
- Date: Thu, 11 Dec 2025 04:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.18467
- Title: Long-LRM++: Preserving Fine Details in Feed-Forward Wide-Coverage Reconstruction
- Title(参考訳): Long-LRM++:フィードフォワード・ワイド・クローバジ・コンストラクションにおける細部保存
- Authors: Chen Ziwen, Hao Tan, Peng Wang, Zexiang Xu, Li Fuxin,
- Abstract要約: Long-LRM++は、半明示的なシーン表現と軽量デコーダを組み合わせたモデルである。
Long-LRM++は、DL3DV上のLaCTのレンダリング品質と、A100 GPU上でリアルタイム14 FPSレンダリングを実現している。
われわれの設計では、950times540$の解像度で64のインプットビューにスケールし、入力長の増大を強く一般化している。
- 参考スコア(独自算出の注目度): 19.234118544637592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generalizable Gaussian splatting (GS) have enabled feed-forward reconstruction of scenes from tens of input views. Long-LRM notably scales this paradigm to 32 input images at $950\times540$ resolution, achieving 360° scene-level reconstruction in a single forward pass. However, directly predicting millions of Gaussian parameters at once remains highly error-sensitive: small inaccuracies in positions or other attributes lead to noticeable blurring, particularly in fine structures such as text. In parallel, implicit representation methods such as LVSM and LaCT have demonstrated significantly higher rendering fidelity by compressing scene information into model weights rather than explicit Gaussians, and decoding RGB frames using the full transformer or TTT backbone. However, this computationally intensive decompression process for every rendered frame makes real-time rendering infeasible. These observations raise key questions: Is the deep, sequential "decompression" process necessary? Can we retain the benefits of implicit representations while enabling real-time performance? We address these questions with Long-LRM++, a model that adopts a semi-explicit scene representation combined with a lightweight decoder. Long-LRM++ matches the rendering quality of LaCT on DL3DV while achieving real-time 14 FPS rendering on an A100 GPU, overcoming the speed limitations of prior implicit methods. Our design also scales to 64 input views at the $950\times540$ resolution, demonstrating strong generalization to increased input lengths. Additionally, Long-LRM++ delivers superior novel-view depth prediction on ScanNetv2 compared to direct depth rendering from Gaussians. Extensive ablation studies validate the effectiveness of each component in the proposed framework.
- Abstract(参考訳): 一般化可能なガウススプラッティング(GS)の最近の進歩は、何万もの入力ビューからのシーンのフィードフォワード再構築を可能にしている。
Long-LRMは、このパラダイムを950\times540$の解像度で32の入力画像に拡張し、1回の前方通過で360度シーンレベルの再構築を実現している。
しかし、数百万のガウスパラメータを直接予測することは、非常にエラーに敏感であり、特にテキストのような微細な構造では、位置や属性の小さな不正確さが顕著にぼやけてしまう。
並行して、LVSMやLaCTのような暗黙的表現法は、シーン情報を明示的なガウスアンではなくモデル重みに圧縮し、フルトランスフォーマーやTTTバックボーンを使用してRGBフレームをデコードすることで、レンダリングの精度を著しく向上させた。
しかし、この計算集約的な圧縮処理により、リアルタイムレンダリングが実現不可能となる。
これらの観察は、重要な疑問を提起する: 深い、連続的な「減圧」プロセスは必要か?
リアルタイムのパフォーマンスを実現しながら、暗黙の表現の利点を保てますか?
半明示的なシーン表現と軽量デコーダを組み合わせたモデルであるLong-LRM++を用いて,これらの問題に対処する。
Long-LRM++はDL3DV上のLaCTのレンダリング品質と一致し、A100 GPU上でリアルタイム14 FPSレンダリングを実現し、従来の暗黙的手法の速度制限を克服した。
われわれの設計では、950\times540$の解像度で64の入力ビューにスケールし、入力長の増大を強く一般化している。
さらに、Long-LRM++は、ガウスの直接の深度レンダリングと比較して、ScanNetv2で優れたノベルビューの深度予測を提供する。
大規模なアブレーション研究により,提案フレームワークにおける各コンポーネントの有効性が検証された。
関連論文リスト
- FlowR: Flowing from Sparse to Dense 3D Reconstructions [60.28571003356382]
そこで本研究では,疎度な再現から密度な再構成に期待できるレンダリングまで,新しいビューレンダリングを接続するためのフローを学習するフローマッチングモデルを提案する。
我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
論文 参考訳(メタデータ) (2025-04-02T11:57:01Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats [31.37432523412404]
Long-LRMはフィードフォワード3次元ガウス再構成モデルであり、高速で高解像度、360度広視野、シーンレベルの再構成を行う。
解像度960x540の32の入力イメージを取り込み、1つのA100 GPUでわずか1秒で再構成を生成する。
大規模DL3DVベンチマークとTurps&TemplesでLong-LRMを評価し,最適化手法に匹敵する再現性を示した。
論文 参考訳(メタデータ) (2024-10-16T17:54:06Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - EndoGaussian: Real-time Gaussian Splatting for Dynamic Endoscopic Scene
Reconstruction [36.35631592019182]
3次元ガウススプラッティングを用いたリアルタイム内視鏡的シーン再構築フレームワークであるEndoGaussian(3DGS)を紹介する。
我々のフレームワークはレンダリング速度をリアルタイムレベルまで大幅に向上させます。
公開データセットの実験は、多くの点で以前のSOTAに対する有効性を実証している。
論文 参考訳(メタデータ) (2024-01-23T08:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。