論文の概要: FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM
- arxiv url: http://arxiv.org/abs/2512.25008v2
- Date: Thu, 01 Jan 2026 17:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 13:15:27.778283
- Title: FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM
- Title(参考訳): FoundationSLAM: エンド・ツー・エンドのビジュアルSLAMのためのディープス・ファンデーション・モデルのパワーを開放する
- Authors: Yuchen Wu, Jiahe Li, Fabio Tosi, Matteo Poggi, Jin Zheng, Xiao Bai,
- Abstract要約: FoundationSLAMは、正確でロバストな追跡とマッピングのための学習ベースの単分子高密度SLAMシステムである。
我々の中核となる考え方は、基礎深度モデルからのガイダンスを活用することによって、推論によるフロー推定をブリッジすることである。
- 参考スコア(独自算出の注目度): 50.9765003472032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FoundationSLAM, a learning-based monocular dense SLAM system that addresses the absence of geometric consistency in previous flow-based approaches for accurate and robust tracking and mapping. Our core idea is to bridge flow estimation with geometric reasoning by leveraging the guidance from foundation depth models. To this end, we first develop a Hybrid Flow Network that produces geometry-aware correspondences, enabling consistent depth and pose inference across diverse keyframes. To enforce global consistency, we propose a Bi-Consistent Bundle Adjustment Layer that jointly optimizes keyframe pose and depth under multi-view constraints. Furthermore, we introduce a Reliability-Aware Refinement mechanism that dynamically adapts the flow update process by distinguishing between reliable and uncertain regions, forming a closed feedback loop between matching and optimization. Extensive experiments demonstrate that FoundationSLAM achieves superior trajectory accuracy and dense reconstruction quality across multiple challenging datasets, while running in real-time at 18 FPS, demonstrating strong generalization to various scenarios and practical applicability of our method.
- Abstract(参考訳): 本研究では,従来のフローベースアプローチにおける幾何的整合性の欠如に対処し,高精度でロバストな追跡とマッピングを行う学習型単分子高密度SLAMシステムであるFoundationSLAMを提案する。
我々の中心となる考え方は、基礎深度モデルからのガイダンスを活用することで、幾何学的推論によるフロー推定を橋渡しすることである。
この目的のために,我々はまず,様々なキーフレームにまたがる一貫した深度と推論が可能な幾何認識対応型ハイブリッドフローネットワークを開発した。
グローバルな一貫性を実現するために,多視点制約下でキーフレームのポーズと深さを協調的に最適化するバイ一貫性バンドル調整層を提案する。
さらに、信頼性の高い領域と不確実な領域を区別し、マッチングと最適化の間にクローズドなフィードバックループを形成することにより、フロー更新プロセスを動的に適応するReliability-Aware Refinement機構を導入する。
広範囲な実験により,FoundationSLAMは,18 FPSでリアルタイムに動作しながら,複数の課題のあるデータセットに対して高い軌道精度と高密度再構成品質を実現し,様々なシナリオへの強力な一般化と本手法の適用性を実証した。
関連論文リスト
- Keyframe-Based Feed-Forward Visual Odometry [13.646685343885556]
現在の基礎モデルに基づく手法は、通常、生画像列を無差別に処理する。
本稿では、データ駆動方式で適応的な視覚ポリシーを導出するために強化学習を利用するフィードフォワードVO法を提案する。
実験により,提案手法は最新式フィードフォワードVO法よりも一貫した,実質的な改善が得られた。
論文 参考訳(メタデータ) (2026-01-22T14:45:42Z) - Depth-Consistent 3D Gaussian Splatting via Physical Defocus Modeling and Multi-View Geometric Supervision [12.972772139292957]
本稿では,フィールド深度監視と多視点整合性監視を統合した新しい計算フレームワークを提案する。
マルチビュー幾何学的制約でデフォーカス物理を統一することにより,最先端のPSNR法よりも0.8dBのPSNRを改良した深度忠実度を実現する。
論文 参考訳(メタデータ) (2025-11-13T13:51:16Z) - Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance [61.41904916189093]
単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。
我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
論文 参考訳(メタデータ) (2025-08-25T17:11:53Z) - JointSplat: Probabilistic Joint Flow-Depth Optimization for Sparse-View Gaussian Splatting [10.690965024885358]
スパースの観点から3Dシーンを再構築することは、幅広いアプリケーションにおいて長年にわたる課題である。
近年のフィードフォワード3Dガウスのスパースビュー再構成法は, リアルタイムな新規ビュー合成のための効率的な解法である。
光学的流れと深さの相補性を利用する統一的なフレームワークであるJointSplatを提案する。
論文 参考訳(メタデータ) (2025-06-04T12:04:40Z) - Depth Anything with Any Prior [64.39991799606146]
Prior Depth Anythingは、深さ測定における不完全だが正確な計量情報と深さ予測における相対的だが完全な幾何学的構造を組み合わせたフレームワークである。
本研究では, 単眼深度推定(MDE)モデルを構築し, 深度推定の固有ノイズを改良する。
われわれのモデルは、7つの現実世界のデータセットにまたがる深度補完、超高解像度、インパインティングという、印象的なゼロショットの一般化を見せている。
論文 参考訳(メタデータ) (2025-05-15T17:59:50Z) - DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - DuCos: Duality Constrained Depth Super-Resolution via Foundation Model [56.88399488384106]
ラグランジアン双対性理論に基づく新しい深度超解像フレームワークであるDuCosを紹介する。
DuCosは、ファンデーションモデルをプロンプトとして、さまざまなシナリオにおける一般化を著しく改善した最初の企業だ。
論文 参考訳(メタデータ) (2025-03-06T07:36:45Z) - Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-09T18:58:30Z) - Exploiting Correspondences with All-pairs Correlations for Multi-view
Depth Estimation [19.647670347925754]
多視点深度推定は,3次元世界を再構築し,理解する上で重要な役割を担っている。
最適化過程を模倣した新しい反復的多視点深度推定フレームワークを設計する。
ScanNet,DeMoN,ETH3D,および7Scenesについて十分な実験を行い,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-05-05T07:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。