論文の概要: SCE-SLAM: Scale-Consistent Monocular SLAM via Scene Coordinate Embeddings
- arxiv url: http://arxiv.org/abs/2601.09665v1
- Date: Wed, 14 Jan 2026 17:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.494218
- Title: SCE-SLAM: Scale-Consistent Monocular SLAM via Scene Coordinate Embeddings
- Title(参考訳): SCE-SLAM:SCE-SLAM-SCE-SLAM-SCE-SLAM-SCE-SLAM-
- Authors: Yuchen Wu, Jiahe Li, Xiaohan Yu, Lina Yu, Jin Zheng, Xiao Bai,
- Abstract要約: モノクロビジュアルSLAMは、インターネットビデオからの3D再構成と、リソース制約のあるプラットフォーム上での自律的なナビゲーションを可能にする。
本研究では,シーン座標埋め込みによるスケール一貫性を維持するエンドツーエンドSLAMシステムであるSCE-SLAMを提案する。
提案手法は,KITTIの絶対軌道誤差を最大8.36m削減する。
- 参考スコア(独自算出の注目度): 25.270378885547277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular visual SLAM enables 3D reconstruction from internet video and autonomous navigation on resource-constrained platforms, yet suffers from scale drift, i.e., the gradual divergence of estimated scale over long sequences. Existing frame-to-frame methods achieve real-time performance through local optimization but accumulate scale drift due to the lack of global constraints among independent windows. To address this, we propose SCE-SLAM, an end-to-end SLAM system that maintains scale consistency through scene coordinate embeddings, which are learned patch-level representations encoding 3D geometric relationships under a canonical scale reference. The framework consists of two key modules: geometry-guided aggregation that leverages 3D spatial proximity to propagate scale information from historical observations through geometry-modulated attention, and scene coordinate bundle adjustment that anchors current estimates to the reference scale through explicit 3D coordinate constraints decoded from the scene coordinate embeddings. Experiments on KITTI, Waymo, and vKITTI demonstrate substantial improvements: our method reduces absolute trajectory error by 8.36m on KITTI compared to the best prior approach, while maintaining 36 FPS and achieving scale consistency across large-scale scenes.
- Abstract(参考訳): モノクロビジュアルSLAMは、インターネットビデオからの3D再構成とリソース制約のあるプラットフォームでの自律ナビゲーションを可能にするが、スケールドリフト、すなわち長期にわたる推定スケールの段階的なばらつきに苦しむ。
既存のフレーム・ツー・フレーム手法は局所最適化によってリアルタイムな性能を実現するが、独立ウィンドウ間の大域的制約の欠如によりスケールドリフトを蓄積する。
そこで我々は,SCE-SLAMを提案する。SCE-SLAMは,3次元幾何学的関係を標準スケール参照で符号化したパッチレベルの表現を学習し,シーン座標の埋め込みを通じてスケールの一貫性を維持するシステムである。
このフレームワークは、2つの重要なモジュールで構成されている: 幾何学誘導アグリゲーションは、3次元空間的近接を利用して歴史的観測から幾何変調された注意を通してスケール情報を伝播し、シーン座標埋め込みからデコードされた明示的な3次元座標制約によって、現在の推定値を基準スケールに固定するシーン座標バンドル調整である。
KITTI,Waymo,vKITTIに関する実験では,36FPSを維持しながら大規模シーンでのスケール一貫性を実現しつつ,KITTIの絶対軌道誤差を8.36m削減する手法が提案されている。
関連論文リスト
- Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - SING3R-SLAM: Submap-based Indoor Monocular Gaussian SLAM with 3D Reconstruction Priors [80.51557267896938]
SING3R-SLAMはガウスベースの高密度RGB SLAMフレームワークである。
SING3R-SLAMは最先端のトラッキング、3D再構成、新しいビューレンダリングを実現し、12%以上の精度向上を実現し、より細かな幾何を創出する。
論文 参考訳(メタデータ) (2025-11-21T12:40:55Z) - Outdoor Monocular SLAM with Global Scale-Consistent 3D Gaussian Pointmaps [13.325879149065008]
3D Gaussian Splatting (3DGS) は、高忠実性合成とリアルタイムな新規ビュー性能によりSLAMにおいて一般的なソリューションとなっている。
以前の3DGS SLAM法では、屋外のシーンに幾何学的な先行性がないため、追跡に微分可能なレンダリングパイプラインを使用していた。
技術的には、3DGSポイントマップに固定された自己整合性トラッキングモジュールを構築し、累積スケールドリフトを回避し、より正確でロバストなトラッキングを実現する。
論文 参考訳(メタデータ) (2025-07-04T17:56:43Z) - POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction [53.19968902152528]
POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。
具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。
本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
論文 参考訳(メタデータ) (2025-04-08T05:33:13Z) - GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。
本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。
提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:59:50Z) - MoD-SLAM: Monocular Dense Mapping for Unbounded 3D Scene Reconstruction [2.3630527334737104]
MoD-SLAMは、非有界シーンにおけるリアルタイムな3次元再構成を可能にする、最初のモノクラーNeRFを用いた高密度マッピング法である。
追跡処理にロバストな深度損失項を導入することにより,大規模シーンにおけるより正確なポーズ推定を実現する。
2つの標準データセットを用いた実験により, MoD-SLAMは競争性能を向上し, 3次元再構成の精度を最大30%, 15%向上した。
論文 参考訳(メタデータ) (2024-02-06T07:07:33Z) - DSP-SLAM: Object Oriented SLAM with Deep Shape Priors [16.867669408751507]
対象物に対する高密度3次元モデルのリッチで正確な関節マップを構築するオブジェクト指向SLAMシステムを提案する。
DSP-SLAMは特徴ベースのSLAMシステムによって再構築された3Dポイントクラウドを入力として取り込む。
本評価では,近年の深層構造復元法に対して,物体の姿勢と形状の復元が改善したことを示す。
論文 参考訳(メタデータ) (2021-08-21T10:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。