Fugu-MT 論文翻訳(概要): M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

論文の概要: M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

arxiv url: http://arxiv.org/abs/2603.16844v1
Date: Tue, 17 Mar 2026 17:52:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.461853
Title: M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM
Title（参考訳）: M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM
Authors: Kerui Ren, Guanghao Li, Changjian Jiang, Yingxiang Xu, Tao Lu, Linning Xu, Junting Dong, Jiangmiao Pang, Mulin Yu, Bo Dai,
Abstract要約: M3はMulti-view基盤モデルを専用のMatchingヘッドで拡張し、細粒度の密度の高い通信を容易にする。室内および屋外の様々なベンチマークの実験は、ポーズ推定とシーン再構成の両方において最先端の精度を示している。
参考スコア（独自算出の注目度）: 36.28718478194476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Streaming reconstruction from uncalibrated monocular video remains challenging, as it requires both high-precision pose estimation and computationally efficient online refinement in dynamic environments. While coupling 3D foundation models with SLAM frameworks is a promising paradigm, a critical bottleneck persists: most multi-view foundation models estimate poses in a feed-forward manner, yielding pixel-level correspondences that lack the requisite precision for rigorous geometric optimization. To address this, we present M^3, which augments the Multi-view foundation model with a dedicated Matching head to facilitate fine-grained dense correspondences and integrates it into a robust Monocular Gaussian Splatting SLAM. M^3 further enhances tracking stability by incorporating dynamic area suppression and cross-inference intrinsic alignment. Extensive experiments on diverse indoor and outdoor benchmarks demonstrate state-of-the-art accuracy in both pose estimation and scene reconstruction. Notably, M^3 reduces ATE RMSE by 64.3% compared to VGGT-SLAM 2.0 and outperforms ARTDECO by 2.11 dB in PSNR on the ScanNet++ dataset.
Abstract（参考訳）: 動的環境下での高精度ポーズ推定と計算効率のよいオンラインリファインメントの両方を必要とするため、未校正モノクロビデオからのストリーム復元は依然として困難である。 SLAMフレームワークと3Dファウンデーションモデルを結合することは有望なパラダイムであるが、重要なボトルネックが持続する: 多くのマルチビューファウンデーションモデルはフィードフォワード形式でポーズし、厳密な幾何最適化に必要な精度を欠いたピクセルレベルの対応を得る。そこで本論文では,M^3について述べる。M^3は,Multi-view Foundationモデルに専用のMatching Headを付加し,細粒度密度の高い通信を容易にし,ロバストな単分子ガウススティングSLAMに統合する。 M^3はさらに、動的領域抑制とクロス推論固有のアライメントを組み込むことで、追跡安定性を高める。室内および屋外の様々なベンチマークに関する大規模な実験は、ポーズ推定とシーン再構成の両方において最先端の精度を示している。特に、M^3 は VGGT-SLAM 2.0 と比較して ATE RMSE を 64.3% 削減し、ScanNet++ データセット上の PSNR において ARTDECO を 2.11 dB で上回っている。

関連論文リスト

BuildMamba: A Visual State-Space Based Model for Multi-Task Building Segmentation and Height Estimation from Satellite Images [0.6773121102591491]
BuildMambaは、ビジュアルステートスペースモデルの線形時間グローバルモデリングを活用するために設計された統合マルチタスクフレームワークである。 DFC23ベンチマークでは0.93のIoUと1.77mのRMSEが達成され、高度推定では0.82mを超える。
論文参考訳（メタデータ） (2026-03-09T15:56:42Z)
Gaussian Based Adaptive Multi-Modal 3D Semantic Occupancy Prediction [0.0]
この研究は、新しい適応カメラ-LiDARマルチモーダル3D占有率予測モデルを強化する。カメラモダリティの意味的強度とLiDARモダリティの幾何学的強度をシームレスにブリッジする。
論文参考訳（メタデータ） (2026-01-20T20:11:09Z)
MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。 MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文参考訳（メタデータ） (2025-10-31T06:54:27Z)
Gesplat: Robust Pose-Free 3D Reconstruction via Geometry-Guided Gaussian Splatting [21.952325954391508]
本稿では、3DGSベースのフレームワークであるGesplatを紹介し、ロバストな新しいビュー合成と、未提示のスパース画像からの幾何的に一貫した再構成を可能にする。提案手法は,他のポーズフリー手法と比較して,前方および大規模の複雑なデータセット上でより堅牢な性能を実現する。
論文参考訳（メタデータ） (2025-10-11T08:13:46Z)
H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文参考訳（メタデータ） (2025-08-05T05:56:30Z)
Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文参考訳（メタデータ） (2024-12-02T14:44:39Z)
PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文参考訳（メタデータ） (2024-10-29T15:28:15Z)
Q-SLAM: Quadric Representations for Monocular SLAM [85.82697759049388]
四角形のレンズを通して体積表現を再現する。我々は、RGB入力からノイズの深い深さ推定を正すために二次仮定を用いる。本研究では,新たな二次分割変換器を導入し,二次情報を集約する。
論文参考訳（メタデータ） (2024-03-12T23:27:30Z)
A Model for Multi-View Residual Covariances based on Perspective Deformation [88.21738020902411]
マルチビューSfM, オードメトリ, SLAMセットアップにおける視覚的残差の共分散モデルの導出を行う。我々は、合成データと実データを用いてモデルを検証し、それを光度および特徴量に基づくバンドル調整に統合する。
論文参考訳（メタデータ） (2022-02-01T21:21:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。