論文の概要: VGGT-SLAM++
- arxiv url: http://arxiv.org/abs/2604.06830v1
- Date: Wed, 08 Apr 2026 08:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.434752
- Title: VGGT-SLAM++
- Title(参考訳): VGGT-SLAM++
- Authors: Avilasha Mandal, Rajesh Kumar, Sudarshan Sunil Harithas, Chetan Arora,
- Abstract要約: VGGT-SLAM++ は Visual Geometry Grounded Transformer (VGGT) のジオメトリリッチな出力を利用する完全なビジュアルSLAMシステムである。
VGGT-SLAM++は最先端の精度を実現し、短期のドリフトを大幅に削減し、グラフ収束を加速し、コンパクトDEMタイルとサブ線形検索とのグローバルな一貫性を維持する。
- 参考スコア(独自算出の注目度): 5.328844684085525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce VGGT-SLAM++, a complete visual SLAM system that leverages the geometry-rich outputs of the Visual Geometry Grounded Transformer (VGGT). The system comprises a visual odometry (front-end) fusing the VGGT feed-forward transformer and a Sim(3) solution, a Digital Elevation Map (DEM)-based graph construction module, and a back-end that jointly enable accurate large-scale mapping with bounded memory. While prior transformer-based SLAM pipelines such as VGGT-SLAM rely primarily on sparse loop closures or global Sim(3) manifold constraints - allowing short-horizon pose drift - VGGT-SLAM++ restores high-cadence local bundle adjustment (LBA) through a spatially corrective back-end. For each VGGT submap, we construct a dense planar-canonical DEM, partition it into patches, and compute their DINOv2 embeddings to integrate the submap into a covisibility graph. Spatial neighbors are retrieved using a Visual Place Recognition (VPR) module within the covisibility window, triggering frequent local optimization that stabilizes trajectories. Across standard SLAM benchmarks, VGGT-SLAM++ achieves state-of-the-art accuracy, substantially reducing short-term drift, accelerating graph convergence, and maintaining global consistency with compact DEM tiles and sublinear retrieval.
- Abstract(参考訳): VGGT-SLAM++は、VGGT(Visual Geometry Grounded Transformer)の幾何学的リッチな出力を利用する完全なビジュアルSLAMシステムである。
本システムは、VGGTフィードフォワードトランスフォーマーとSim(3)ソリューションを融合した視覚計測(フロントエンド)と、DEM(Digital Elevation Map)ベースのグラフ構築モジュールと、境界メモリによる正確な大規模マッピングを実現するバックエンドとを備える。
VGGT-SLAMのような以前のトランスフォーマーベースのSLAMパイプラインは、主にスパースループクロージャやグローバルSim(3)多様体の制約に依存している。
各VGGTサブマップに対して、高密度平面カノニカルDEMを構築し、パッチに分割し、それらのDINOv2埋め込みを計算して、サブマップを可視グラフに統合する。
空間的隣人は、視認性ウィンドウ内の視覚的位置認識(VPR)モジュールを使用して検索され、軌道を安定化する頻繁な局所最適化が引き起こされる。
標準的なSLAMベンチマーク全体では、VGGT-SLAM++は最先端の精度を実現し、短期のドリフトを大幅に削減し、グラフ収束を加速し、コンパクトDEMタイルとサブ線形検索とのグローバルな一貫性を維持する。
関連論文リスト
- LG-HCC: Local Geometry-Aware Hierarchical Context Compression for 3D Gaussian Splatting [77.81227097905865]
アンカーベースの3DGS圧縮スキームは、いくつかの高度な文脈モデルを通してガウスの冗長性を減少させる。
本稿では, アンカープルーニングとエントロピー符号化にアンカー幾何学的相関を組み込んだ3DGSのための局所幾何学的階層型コンテキスト圧縮フレームワークを提案する。
実験の結果、LG-HCCは構造保存の問題を効果的に緩和し、Mip-NeRF360データセット上のScaffold-GSベースラインと比較して最大30.85倍のストレージを削減した。
論文 参考訳(メタデータ) (2026-03-30T13:39:35Z) - VGGT-Motion: Motion-Aware Calibration-Free Monocular SLAM for Long-Range Consistency [28.71501560297241]
VGGT-Motion(VGGT-Motion)は、キロスケールの軌道上での効率的なグローバル整合性のためのキャリブレーションフリーSLAMシステムである。
まず,光学フローを用いて適応分割を誘導する動き認識サブマップ構築機構を提案する。
次に、アンカー駆動のダイレクトSim(3)登録戦略を設計する。
実験により、VGGT-Motionは軌道の精度と効率を著しく改善することが示された。
論文 参考訳(メタデータ) (2026-02-05T10:07:11Z) - LiDAR-VGGT: Cross-Modal Coarse-to-Fine Fusion for Globally Consistent and Metric-Scale Dense Mapping [19.77609066194095]
大規模で色のついた雲を再構築することは、ロボット工学において重要なタスクであり、知覚、ナビゲーション、シーン理解をサポートする。
We propose LiDAR-VGGT, a novel framework that a LiDAR inertial odometry with the State-of-the-art VGGT model through a two-stage coarse-to-fine fusion pipeline。
複数のデータセットにわたる実験により、LiDAR-VGGTは密度が高く、一貫した色の点雲を達成し、VGGTベースの方法とLIVOベースラインの両方を上回ります。
論文 参考訳(メタデータ) (2025-11-03T03:24:28Z) - Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - Point Cloud Denoising With Fine-Granularity Dynamic Graph Convolutional Networks [58.050130177241186]
ノイズの摂動は、しばしば3次元の点雲を破損させ、表面の再構成、レンダリング、さらなる処理といった下流のタスクを妨げる。
本稿では,GDGCNと呼ばれる粒度動的グラフ畳み込みネットワークについて紹介する。
論文 参考訳(メタデータ) (2024-11-21T14:19:32Z) - IDLS: Inverse Depth Line based Visual-Inertial SLAM [9.38589798999922]
Inverse Depth Line SLAM (IDLS) を提案する。
IDLSは、複数の知覚的整合性データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-04-23T20:53:05Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Parallel Structure from Motion for UAV Images via Weighted Connected
Dominating Set [5.17395782758526]
本稿では,クラスタマージのための大域的モデルを抽出し,効率よく正確なUAV画像配向を実現するために並列SfMソリューションを設計するアルゴリズムを提案する。
実験の結果,提案した並列SfMは17.4倍の効率向上と相対配向精度が得られることがわかった。
論文 参考訳(メタデータ) (2022-06-23T06:53:06Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。