論文の概要: VGGT-SLAM 2.0: Real-time Dense Feed-forward Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2601.19887v2
- Date: Fri, 30 Jan 2026 20:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.606128
- Title: VGGT-SLAM 2.0: Real-time Dense Feed-forward Scene Reconstruction
- Title(参考訳): VGGT-SLAM 2.0:リアルタイムフィードフォワードシーン再構築
- Authors: Dominic Maggio, Luca Carlone,
- Abstract要約: VGGT-SLAM 2.0はリアルタイムのRGBフィードフォワードSLAMシステムであり、VGGT-SLAMを大幅に改善する。
我々は、VGGT-SLAM 2.0が、VGGT-SLAMよりも約23%少ないポーズエラーで、TUMデータセット上で最高の精度を達成することを実証した。
- 参考スコア(独自算出の注目度): 15.476442910099827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VGGT-SLAM 2.0, a real-time RGB feed-forward SLAM system which substantially improves upon VGGT-SLAM for incrementally aligning submaps created from VGGT. Firstly, we remove high-dimensional 15-degree-of-freedom drift and planar degeneracy from VGGT-SLAM by creating a new factor graph design while still addressing the reconstruction ambiguity of VGGT given unknown camera intrinsics. Secondly, by studying the attention layers of VGGT, we show that one of the layers is well suited to assist in image retrieval verification for free without additional training, which enables both rejecting false positive matches and allows for completing more loop closures. Finally, we conduct a suite of experiments which includes showing VGGT-SLAM 2.0 can easily be adapted for open-set object detection and demonstrating real-time performance while running online onboard a ground robot using a Jetson Thor. We test in environments ranging from cluttered indoor apartments and office scenes to a 4,200 square foot barn, and we also demonstrate VGGT-SLAM 2.0 achieves the highest accuracy on the TUM dataset with about 23 percent less pose error than VGGT-SLAM. Code will be released upon publication.
- Abstract(参考訳): 本稿では,リアルタイムRGBフィードフォワードSLAMシステムであるVGGT-SLAM 2.0を提案する。
まず,VGGT-SLAMから高次元自由度ドリフトと平面デジェネティクスを除去し,未知のカメラ内在性を持つVGGTの再構成あいまいさに対処しながら,新しい因子グラフ設計を作成する。
第2に,VGGTの注意層を研究することにより,付加的なトレーニングを伴わずに画像検索検証を無償で行うのに適していることを示す。
最後に,VGGT-SLAM 2.0が,Jetson Thorを用いた地上ロボット上でオンライン動作中に,オープンセットのオブジェクト検出に容易に適応できること,およびリアルタイム性能を示すことを含む一連の実験を行った。
VGGT-SLAM 2.0はVGGT-SLAMよりもポーズエラーが約23%少ないTUMデータセット上で最も精度が高いことを実証した。
コードは出版時に公開される。
関連論文リスト
- VGGT-X: When VGGT Meets Dense Novel View Synthesis [27.397168758449904]
我々は3次元基礎モデル(3DFM)を高密度新規ビュー合成(NVS)に適用する問題について検討する。
我々の研究は、3DFMを高密度に拡大することは、VRAM負荷を劇的に増加させ、3Dトレーニングを低下させる不完全な出力の2つの基本的な障壁に直面することを明らかにした。
本稿では,1000以上の画像にスケール可能なメモリ効率のよいVGGT実装,VGGT出力向上のための適応的グローバルアライメント,堅牢な3DGSトレーニングプラクティスを取り入れたVGGT-Xを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:59:59Z) - FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - VPGS-SLAM: Voxel-based Progressive 3D Gaussian SLAM in Large-Scale Scenes [26.06908154350295]
VPGS-SLAMは3DGSベースの大規模なRGBD SLAMフレームワークで、屋内および屋外の両方のシナリオに対応している。
我々は,コンパクトで正確なシーン表現のための複数のサブマップを持つ新しいボクセルベースのプログレッシブ3Dガウスマッピング法を設計する。
さらに,室内および屋外の大規模シーンにおいて,ロバストかつ高精度なカメラトラッキングを実現するための2D-3Dフュージョンカメラトラッキング手法を提案する。
論文 参考訳(メタデータ) (2025-05-25T06:27:29Z) - VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold [18.423666379504184]
VGGT-SLAMは、フィードフォワードシーン再構築アプローチVGGTから生成されたサブマップをインクリメンタルかつグローバルに整列させて構築された高密度RGB SLAMシステムである。
VGGT-SLAMは,高GPU要求のためにVGGTでは実現不可能な長いビデオシーケンスを用いて,地図品質の向上を実現する。
論文 参考訳(メタデータ) (2025-05-18T21:33:09Z) - Adapting Fine-Grained Cross-View Localization to Areas without Fine Ground Truth [56.565405280314884]
本稿では,GTの微細化を伴わないターゲット領域の画像のみを活用することにより,新たなターゲット領域におけるトレーニングモデルの性能向上に焦点をあてる。
本稿では,知識の自己蒸留に基づく弱教師付き学習手法を提案する。
提案手法は,最近の2つのベンチマークモデルを用いて検証した。
論文 参考訳(メタデータ) (2024-06-01T15:58:35Z) - GlORIE-SLAM: Globally Optimized RGB-only Implicit Encoding Point Cloud SLAM [53.6402869027093]
フレキシブルなニューラルポイントクラウド表現シーンを用いたRGBのみの高密度SLAMシステムを提案する。
また,単分子深度とともに暗黙のポーズと深さを最適化する新しいDSPO層を導入する。
論文 参考訳(メタデータ) (2024-03-28T16:32:06Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。