論文の概要: SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
- arxiv url: http://arxiv.org/abs/2412.09401v1
- Date: Thu, 12 Dec 2024 16:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:20.723022
- Title: SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
- Title(参考訳): SLAM3R:モノクロのRGB映像をリアルタイムに再現
- Authors: Yuzheng Liu, Siyan Dong, Shuzhe Wang, Yingda Yin, Yanchao Yang, Qingnan Fan, Baoquan Chen,
- Abstract要約: SLAM3Rは、リアルタイムかつ高品質な高密度3D再構成のための、新規で効果的な単分子式RGB SLAMシステムである。
フィードフォワードニューラルネットワークを通じて、ローカルな3D再構成とグローバルな座標登録をシームレスに統合する。
SLAM3Rは、20FPS以上のリアルタイム性能を維持しながら、最先端の復元精度と完全性を達成することを示す実験が一貫して行われている。
- 参考スコア(独自算出の注目度): 33.57444419305241
- License:
- Abstract: In this paper, we introduce \textbf{SLAM3R}, a novel and effective monocular RGB SLAM system for real-time and high-quality dense 3D reconstruction. SLAM3R provides an end-to-end solution by seamlessly integrating local 3D reconstruction and global coordinate registration through feed-forward neural networks. Given an input video, the system first converts it into overlapping clips using a sliding window mechanism. Unlike traditional pose optimization-based methods, SLAM3R directly regresses 3D pointmaps from RGB images in each window and progressively aligns and deforms these local pointmaps to create a globally consistent scene reconstruction - all without explicitly solving any camera parameters. Experiments across datasets consistently show that SLAM3R achieves state-of-the-art reconstruction accuracy and completeness while maintaining real-time performance at 20+ FPS. Code and weights at: \url{https://github.com/PKU-VCL-3DV/SLAM3R}.
- Abstract(参考訳): 本稿では, リアルタイムかつ高品質な高密度3次元再構成のための新規かつ効果的な単分子RGB SLAMシステムである \textbf{SLAM3R} を紹介する。
SLAM3Rは、フィードフォワードニューラルネットワークを通じて、ローカルな3D再構成とグローバルな座標登録をシームレスに統合することで、エンドツーエンドのソリューションを提供する。
入力ビデオが与えられたら、まずスライドウィンドウ機構を使ってオーバーラップするクリップに変換する。
従来のポーズ最適化方式とは異なり、SLAM3Rは各ウィンドウのRGBイメージから3Dポイントマップを直接回帰し、局所的なポイントマップを段階的に整列してデフォーメーションし、グローバルに一貫したシーン再構築を生成する。
データセット間の実験は、SLAM3Rが20以上のFPSでリアルタイムのパフォーマンスを維持しながら、最先端の再構築精度と完全性を達成することを一貫して示している。
コードと重量: \url{https://github.com/PKU-VCL-3DV/SLAM3R}。
関連論文リスト
- PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:58:10Z) - HI-SLAM2: Geometry-Aware Gaussian SLAM for Fast Monocular Scene Reconstruction [38.47566815670662]
HI-SLAM2は、RGB入力のみを用いて高速かつ正確な単眼シーン再構築を実現する幾何学的ガウスSLAMシステムである。
既存のニューラルSLAM法よりも大幅に改善され,RGB-D法を上回り,再現性もレンダリング性も向上した。
論文 参考訳(メタデータ) (2024-11-27T01:39:21Z) - Splat-SLAM: Globally Optimized RGB-only SLAM with 3D Gaussians [87.48403838439391]
3D Splattingは、RGBのみの高密度SLAMの幾何学と外観の強力な表現として登場した。
本稿では,高密度な3次元ガウス写像表現を持つRGBのみのSLAMシステムを提案する。
Replica、TUM-RGBD、ScanNetのデータセットに対する実験は、グローバルに最適化された3Dガウスの有効性を示している。
論文 参考訳(メタデータ) (2024-05-26T12:26:54Z) - GlORIE-SLAM: Globally Optimized RGB-only Implicit Encoding Point Cloud SLAM [53.6402869027093]
フレキシブルなニューラルポイントクラウド表現シーンを用いたRGBのみの高密度SLAMシステムを提案する。
また,単分子深度とともに暗黙のポーズと深さを最適化する新しいDSPO層を導入する。
論文 参考訳(メタデータ) (2024-03-28T16:32:06Z) - Loopy-SLAM: Dense Neural SLAM with Loop Closures [53.11936461015725]
ポーズをグローバルに最適化するLoopy-SLAMと高密度3Dモデルを導入する。
我々は,データ駆動のポイントベースサブマップ生成手法を用いてフレーム・ツー・モデル追跡を行い,グローバルな位置認識を行うことで,オンラインのループクロージャをトリガーする。
合成Replicaおよび実世界のTUM-RGBDおよびScanNetデータセットの評価は、既存の高密度ニューラルネットワークRGBD SLAM法と比較して、追跡、マッピング、レンダリングの精度の競争力または優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:32Z) - GO-SLAM: Global Optimization for Consistent 3D Instant Reconstruction [45.49960166785063]
GO-SLAMは、リアルタイムでポーズと3D再構成をグローバルに最適化するディープラーニングベースの高密度ビジュアルSLAMフレームワークである。
さまざまな合成および実世界のデータセットの結果から、GO-SLAMはロバスト性や復元精度の追跡において最先端のアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-05T17:59:58Z) - NICER-SLAM: Neural Implicit Scene Encoding for RGB SLAM [111.83168930989503]
NICER-SLAMは、カメラポーズと階層的なニューラル暗黙マップ表現を同時に最適化するRGB SLAMシステムである。
近年のRGB-D SLAMシステムと競合する高密度マッピング,追跡,新しいビュー合成において,高い性能を示す。
論文 参考訳(メタデータ) (2023-02-07T17:06:34Z) - ESLAM: Efficient Dense SLAM System Based on Hybrid Representation of
Signed Distance Fields [2.0625936401496237]
ESLAMは、未知のカメラポーズでRGB-Dフレームを読み出し、シーン表現を漸進的に再構築する。
ESLAMは3次元再構成の精度を向上し、最先端の高密度視覚SLAM法のカメラローカライゼーションを50%以上向上する。
論文 参考訳(メタデータ) (2022-11-21T18:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。