論文の概要: GRS-SLAM3R: Real-Time Dense SLAM with Gated Recurrent State
- arxiv url: http://arxiv.org/abs/2509.23737v1
- Date: Sun, 28 Sep 2025 08:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.412432
- Title: GRS-SLAM3R: Real-Time Dense SLAM with Gated Recurrent State
- Title(参考訳): GRS-SLAM3R: Gated Recurrent State 付きリアルタイム高密度SLAM
- Authors: Guole Shen, Tianchen Deng, Yanbo Wang, Yongtao Chen, Yilin Shen, Jiuming Liu, Jingchuan Wang,
- Abstract要約: 本稿では,高密度シーン再構築のためのエンドツーエンドSLAMフレームワークであるGRS-SLAM3Rを紹介する。
本手法は,グローバル座標における逐次的入力と計量スケールの点群を漸進的に推定する。
各種データセットを用いた実験により, リアルタイム性能を維持しつつ, より優れた復元精度を実現することができた。
- 参考スコア(独自算出の注目度): 29.91962530945268
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: DUSt3R-based end-to-end scene reconstruction has recently shown promising results in dense visual SLAM. However, most existing methods only use image pairs to estimate pointmaps, overlooking spatial memory and global consistency.To this end, we introduce GRS-SLAM3R, an end-to-end SLAM framework for dense scene reconstruction and pose estimation from RGB images without any prior knowledge of the scene or camera parameters. Unlike existing DUSt3R-based frameworks, which operate on all image pairs and predict per-pair point maps in local coordinate frames, our method supports sequentialized input and incrementally estimates metric-scale point clouds in the global coordinate. In order to improve consistent spatial correlation, we use a latent state for spatial memory and design a transformer-based gated update module to reset and update the spatial memory that continuously aggregates and tracks relevant 3D information across frames. Furthermore, we partition the scene into submaps, apply local alignment within each submap, and register all submaps into a common world frame using relative constraints, producing a globally consistent map. Experiments on various datasets show that our framework achieves superior reconstruction accuracy while maintaining real-time performance.
- Abstract(参考訳): DUSt3Rをベースとしたエンド・ツー・エンドシーン再構成は近年,高密度視覚SLAMの有望な結果を示している。
しかし,既存のほとんどの手法では,画像ペアを用いて画像マップを推定し,空間記憶と大域的整合性を見越すのみである。このために,シーンの高密度化とRGB画像からの推定を,シーンパラメータやカメラパラメータの事前知識のないエンドツーエンドSLAMフレームワークであるGRS-SLAM3Rを導入する。
DUSt3Rをベースとした既存のフレームワークは、すべての画像対で動作し、局所座標フレーム内のペアごとの点マップを予測するが、本手法は逐次的な入力をサポートし、グローバル座標におけるメートルスケール点雲を漸進的に推定する。
一貫した空間相関を改善するために,我々は空間メモリの潜時状態を用いて,フレーム間の関連情報を連続的に集約・追跡する空間メモリをリセット・更新するトランスフォーマーベースのゲート更新モジュールを設計する。
さらに、シーンをサブマップに分割し、各サブマップ内に局所的なアライメントを適用し、相対的制約を用いてすべてのサブマップを共通の世界フレームに登録し、一貫したマップを生成する。
各種データセットを用いた実験により, リアルタイム性能を維持しつつ, より優れた復元精度を実現することができた。
関連論文リスト
- Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer Memory [72.75478398447396]
我々は,高密度ストリーミング3D再構成を目的としたオンラインフレームワークであるPoint3Rを提案する。
具体的には、現在のシーンの3次元構造に直接関連した空間ポインタメモリを明示的に保持する。
本手法は,訓練コストの低い各種タスクにおいて,競争力や最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-03T17:59:56Z) - St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z) - SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos [33.57444419305241]
SLAM3Rは、RGBビデオを用いたリアルタイム、高品質、高密度な3D再構成のための新しいシステムである。
フィードフォワードニューラルネットワークを通じて、ローカルな3D再構成とグローバルな座標登録をシームレスに統合する。
20FPS以上のリアルタイム性能を維持しつつ、最先端の復元精度と完全性を達成する。
論文 参考訳(メタデータ) (2024-12-12T16:08:03Z) - 3D Reconstruction with Spatial Memory [9.282647987510499]
本稿では,順序付きあるいは順序なしの画像コレクションから高密度な3次元再構成を行う新しいアプローチであるSpann3Rを提案する。
DUSt3Rパラダイムに基づいて構築されたSpann3Rは、トランスフォーマーベースのアーキテクチャを使用して、シーンやカメラパラメータに関する事前の知識を必要とせずに、画像から直接ポイントマップを回帰する。
論文 参考訳(メタデータ) (2024-08-28T18:01:00Z) - Loopy-SLAM: Dense Neural SLAM with Loop Closures [53.11936461015725]
ポーズをグローバルに最適化するLoopy-SLAMと高密度3Dモデルを導入する。
我々は,データ駆動のポイントベースサブマップ生成手法を用いてフレーム・ツー・モデル追跡を行い,グローバルな位置認識を行うことで,オンラインのループクロージャをトリガーする。
合成Replicaおよび実世界のTUM-RGBDおよびScanNetデータセットの評価は、既存の高密度ニューラルネットワークRGBD SLAM法と比較して、追跡、マッピング、レンダリングの精度の競争力または優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:32Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [60.48134767838629]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。