論文の概要: VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold
- arxiv url: http://arxiv.org/abs/2505.12549v2
- Date: Fri, 23 May 2025 11:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 13:31:15.765214
- Title: VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold
- Title(参考訳): VGGT-SLAM:SL(4)多様体上で最適化された高密度RGBSLAM
- Authors: Dominic Maggio, Hyungtae Lim, Luca Carlone,
- Abstract要約: VGGT-SLAMは、フィードフォワードシーン再構築アプローチVGGTから生成されたサブマップをインクリメンタルかつグローバルに整列させて構築された高密度RGB SLAMシステムである。
VGGT-SLAMは,高GPU要求のためにVGGTでは実現不可能な長いビデオシーケンスを用いて,地図品質の向上を実現する。
- 参考スコア(独自算出の注目度): 18.423666379504184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VGGT-SLAM, a dense RGB SLAM system constructed by incrementally and globally aligning submaps created from the feed-forward scene reconstruction approach VGGT using only uncalibrated monocular cameras. While related works align submaps using similarity transforms (i.e., translation, rotation, and scale), we show that such approaches are inadequate in the case of uncalibrated cameras. In particular, we revisit the idea of reconstruction ambiguity, where given a set of uncalibrated cameras with no assumption on the camera motion or scene structure, the scene can only be reconstructed up to a 15-degrees-of-freedom projective transformation of the true geometry. This inspires us to recover a consistent scene reconstruction across submaps by optimizing over the SL(4) manifold, thus estimating 15-degrees-of-freedom homography transforms between sequential submaps while accounting for potential loop closure constraints. As verified by extensive experiments, we demonstrate that VGGT-SLAM achieves improved map quality using long video sequences that are infeasible for VGGT due to its high GPU requirements.
- Abstract(参考訳): VGGT-SLAMは,フィードフォワードシーン再構築手法であるVGGTから生成したサブマップを,アンキャリブレーションされたモノクロカメラのみを用いて逐次的かつグローバルに並べて構築した高密度RGB SLAMシステムである。
類似性変換(すなわち、翻訳、回転、スケール)を用いて、関連する研究は部分写像を整列させるが、未校正カメラの場合、そのようなアプローチは不十分であることを示す。
特に、カメラの動きやシーン構造を前提とせず、一組の未調整カメラが与えられた場合、シーンは真の幾何学の15自由度プロジェクティブ変換にしか再構成できないという、再構成の曖昧さを再考する。
これにより、SL(4)多様体を最適化することにより、サブマップ全体の一貫したシーン再構成を復元し、潜在的ループ閉包制約を考慮しつつ、シーケンシャルサブマップ間の15自由度ホモグラフィ変換を推定する。
VGGT-SLAMは、VGGTのGPU要求が高いため、VGGTにとって実現不可能な長いビデオシーケンスを用いて、地図品質の向上を実証する。
関連論文リスト
- Large-Scale Gaussian Splatting SLAM [21.253966057320383]
本稿では,LSG-SLAMと呼ばれるステレオカメラを用いた大規模3DGSベースの視覚SLAMを提案する。
EuRocとKITTIデータセットに対する広範な評価により、LSG-SLAMは既存のNeural、3DGSベースの、さらには従来のアプローチよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-05-15T03:00:32Z) - FreeSplat++: Generalizable 3D Gaussian Splatting for Efficient Indoor Scene Reconstruction [50.534213038479926]
FreeSplat++は大規模な屋内全シーン再構築の代替手法である。
深度調整による微調整により,再現精度が大幅に向上し,トレーニング時間も大幅に短縮された。
論文 参考訳(メタデータ) (2025-03-29T06:22:08Z) - Deblur Gaussian Splatting SLAM [57.35366732452066]
Deblur-SLAMは、モーションブルーの入力から鋭い復元を回復するために設計された堅牢なRGB SLAMパイプラインである。
我々は、動きブル画像の物理画像形成過程をモデル化し、観察されたぼやけた画像とぼやけた画像との誤差を最小化する。
我々は,合成および実世界のぼやけた入力データを用いて,シャープマップ推定とサブフレームトラジェクトリ回復のための最先端結果を得る。
論文 参考訳(メタデータ) (2025-03-16T16:59:51Z) - Self-Calibrating Gaussian Splatting for Large Field of View Reconstruction [30.529707438964596]
本稿では,カメラパラメータ,レンズ歪み,3次元ガウス表現を協調的に最適化する自己校正フレームワークを提案する。
本手法により,広角レンズで撮影した大視野視野(FOV)画像から高品質なシーン再構成が可能となり,少ない画像からシーンをモデル化することができる。
論文 参考訳(メタデータ) (2025-02-13T18:15:10Z) - VINGS-Mono: Visual-Inertial Gaussian Splatting Monocular SLAM in Large Scenes [10.287279799581544]
VINGS-Monoは、大きなシーン用に設計された単分子(慣性)ガウススプラッティング(GS)SLAMフレームワークである。
このフレームワークは、VIO Front End、2D Gaussian Map、NVS Loop Closure、Dynamic Eraserの4つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-01-14T18:01:15Z) - VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction [59.40711222096875]
VastGaussianは3次元ガウススティングに基づく大規模シーンにおける高品質な再構成とリアルタイムレンダリングのための最初の方法である。
提案手法は既存のNeRF手法より優れており,複数の大規模シーンデータセットの最先端結果が得られる。
論文 参考訳(メタデータ) (2024-02-27T11:40:50Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - Redesigning SLAM for Arbitrary Multi-Camera Systems [51.81798192085111]
SLAMシステムにより多くのカメラを追加することで、堅牢性と精度が向上するが、視覚的なフロントエンドの設計は大幅に複雑になる。
本研究では,任意のマルチカメラ装置で動作する適応SLAMシステムを提案する。
これらの修正を応用した最先端の視覚慣性計測装置を試作し, 改良したパイプラインが広い範囲のカメラ装置に適応可能であることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-03-04T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。