論文の概要: SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
- arxiv url: http://arxiv.org/abs/2412.09401v2
- Date: Thu, 19 Dec 2024 12:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:18.159240
- Title: SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
- Title(参考訳): SLAM3R:モノクロのRGB映像をリアルタイムに再現
- Authors: Yuzheng Liu, Siyan Dong, Shuzhe Wang, Yanchao Yang, Qingnan Fan, Baoquan Chen,
- Abstract要約: SLAM3Rは、リアルタイムかつ高品質な高密度3D再構成のための、新規で効果的な単分子式RGB SLAMシステムである。
従来のポーズ最適化方式とは異なり、SLAM3Rは各ウィンドウのRGB画像から直接3Dポイントマップを回帰する。
SLAM3Rは、20FPS以上のリアルタイム性能を維持しながら、最先端の復元精度と完全性を達成することを示す実験が一貫して行われている。
- 参考スコア(独自算出の注目度): 32.6924827171619
- License:
- Abstract: In this paper, we introduce SLAM3R, a novel and effective monocular RGB SLAM system for real-time and high-quality dense 3D reconstruction. SLAM3R provides an end-to-end solution by seamlessly integrating local 3D reconstruction and global coordinate registration through feed-forward neural networks. Given an input video, the system first converts it into overlapping clips using a sliding window mechanism. Unlike traditional pose optimization-based methods, SLAM3R directly regresses 3D pointmaps from RGB images in each window and progressively aligns and deforms these local pointmaps to create a globally consistent scene reconstruction - all without explicitly solving any camera parameters. Experiments across datasets consistently show that SLAM3R achieves state-of-the-art reconstruction accuracy and completeness while maintaining real-time performance at 20+ FPS. Code and weights at: https://github.com/PKU-VCL-3DV/SLAM3R.
- Abstract(参考訳): 本稿では,リアルタイム・高品位高精細3次元再構成のための新規かつ効果的な単分子RGB SLAMシステムであるSLAM3Rを紹介する。
SLAM3Rは、フィードフォワードニューラルネットワークを通じて、ローカルな3D再構成とグローバルな座標登録をシームレスに統合することで、エンドツーエンドのソリューションを提供する。
入力ビデオが与えられたら、まずスライドウィンドウ機構を使ってオーバーラップするクリップに変換する。
従来のポーズ最適化方式とは異なり、SLAM3Rは各ウィンドウのRGBイメージから3Dポイントマップを直接回帰し、局所的なポイントマップを段階的に整列してデフォーメーションし、グローバルに一貫したシーン再構築を生成する。
データセット間の実験は、SLAM3Rが20以上のFPSでリアルタイムのパフォーマンスを維持しながら、最先端の再構築精度と完全性を達成することを一貫して示している。
コードと重量:https://github.com/PKU-VCL-3DV/SLAM3R。
関連論文リスト
- IG-SLAM: Instant Gaussian SLAM [6.228980850646457]
3D Gaussian SplattingはSLAMシステムにおける代替シーン表現として期待できる結果を示した。
本稿では,RGBのみの高密度SLAMシステムであるIG-SLAMについて述べる。
我々は、最先端のRGBのみのSLAMシステムと競合する性能を示し、高速な動作速度を実現する。
論文 参考訳(メタデータ) (2024-08-02T09:07:31Z) - Splat-SLAM: Globally Optimized RGB-only SLAM with 3D Gaussians [87.48403838439391]
3D Splattingは、RGBのみの高密度SLAMの幾何学と外観の強力な表現として登場した。
本稿では,高密度な3次元ガウス写像表現を持つRGBのみのSLAMシステムを提案する。
Replica、TUM-RGBD、ScanNetのデータセットに対する実験は、グローバルに最適化された3Dガウスの有効性を示している。
論文 参考訳(メタデータ) (2024-05-26T12:26:54Z) - GlORIE-SLAM: Globally Optimized RGB-only Implicit Encoding Point Cloud SLAM [53.6402869027093]
フレキシブルなニューラルポイントクラウド表現シーンを用いたRGBのみの高密度SLAMシステムを提案する。
また,単分子深度とともに暗黙のポーズと深さを最適化する新しいDSPO層を導入する。
論文 参考訳(メタデータ) (2024-03-28T16:32:06Z) - Loopy-SLAM: Dense Neural SLAM with Loop Closures [53.11936461015725]
ポーズをグローバルに最適化するLoopy-SLAMと高密度3Dモデルを導入する。
我々は,データ駆動のポイントベースサブマップ生成手法を用いてフレーム・ツー・モデル追跡を行い,グローバルな位置認識を行うことで,オンラインのループクロージャをトリガーする。
合成Replicaおよび実世界のTUM-RGBDおよびScanNetデータセットの評価は、既存の高密度ニューラルネットワークRGBD SLAM法と比較して、追跡、マッピング、レンダリングの精度の競争力または優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-14T18:18:32Z) - GO-SLAM: Global Optimization for Consistent 3D Instant Reconstruction [45.49960166785063]
GO-SLAMは、リアルタイムでポーズと3D再構成をグローバルに最適化するディープラーニングベースの高密度ビジュアルSLAMフレームワークである。
さまざまな合成および実世界のデータセットの結果から、GO-SLAMはロバスト性や復元精度の追跡において最先端のアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-05T17:59:58Z) - NICER-SLAM: Neural Implicit Scene Encoding for RGB SLAM [111.83168930989503]
NICER-SLAMは、カメラポーズと階層的なニューラル暗黙マップ表現を同時に最適化するRGB SLAMシステムである。
近年のRGB-D SLAMシステムと競合する高密度マッピング,追跡,新しいビュー合成において,高い性能を示す。
論文 参考訳(メタデータ) (2023-02-07T17:06:34Z) - VolRecon: Volume Rendering of Signed Ray Distance Functions for
Generalizable Multi-View Reconstruction [64.09702079593372]
VolRecon は Signed Ray Distance Function (SRDF) を用いた新しい一般化可能な暗黙的再構成法である
DTUデータセットでは、VolReconはスパースビュー再構築においてSparseNeuSを約30%上回り、フルビュー再構築においてMVSNetと同等の精度を達成する。
論文 参考訳(メタデータ) (2022-12-15T18:59:54Z) - ESLAM: Efficient Dense SLAM System Based on Hybrid Representation of
Signed Distance Fields [2.0625936401496237]
ESLAMは、未知のカメラポーズでRGB-Dフレームを読み出し、シーン表現を漸進的に再構築する。
ESLAMは3次元再構成の精度を向上し、最先端の高密度視覚SLAM法のカメラローカライゼーションを50%以上向上する。
論文 参考訳(メタデータ) (2022-11-21T18:25:14Z) - NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video [41.554961144321474]
本研究では,各ビデオフラグメントのTSDFボリュームに代表される局所曲面をニューラルネットワークで順次再構成することを提案する。
学習ベースのTSDF融合モジュールは、ネットワークが以前のフラグメントから機能をフューズするために使用される。
ScanNetと7-Scenesのデータセットの実験により、我々のシステムは精度と速度の両面で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-01T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。