論文の概要: Accelerating Transformer-Based Monocular SLAM via Geometric Utility Scoring
- arxiv url: http://arxiv.org/abs/2604.08718v1
- Date: Thu, 09 Apr 2026 19:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.554081
- Title: Accelerating Transformer-Based Monocular SLAM via Geometric Utility Scoring
- Title(参考訳): Geometric Utility Scoringによる変圧器単分子SLAMの高速化
- Authors: Xinmiao Xiong, Bangya Liu, Hao Wang, Dayou Li, Nuo Chen, Andrew Feng, Mingyu Ding, Suman Banerjee, Yang Zhou, Zhiwen Fan,
- Abstract要約: 本稿では,軽量フィードフォワードフレームゲーティングネットワークであるLeanGateを提案する。
予測的なプラグアンドプレイモジュールとして、我々のアプローチは冗長フレームの90%以上をバイパスする。
LeanGateはFLOPのトラッキングを85%以上削減し、エンドツーエンドのスループットのスピードアップを5倍にします。
- 参考スコア(独自算出の注目度): 35.53949236541258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geometric Foundation Models (GFMs) have recently advanced monocular SLAM by providing robust, calibration-free 3D priors. However, deploying these models on dense video streams introduces significant computational redundancy. Current GFM-based SLAM systems typically rely on post hoc keyframe selection. Because of this, they must perform expensive dense geometric decoding simply to determine whether a frame contains novel geometry, resulting in late rejection and wasted computation. To mitigate this inefficiency, we propose LeanGate, a lightweight feed-forward frame-gating network. LeanGate predicts a geometric utility score to assess a frame's mapping value prior to the heavy GFM feature extraction and matching stages. As a predictive plug-and-play module, our approach bypasses over 90% of redundant frames. Evaluations on standard SLAM benchmarks demonstrate that LeanGate reduces tracking FLOPs by more than 85% and achieves a 5x end-to-end throughput speedup. Furthermore, it maintains the tracking and mapping accuracy of dense baselines.
- Abstract(参考訳): Geometric Foundation Models (GFMs) は最近、ロバストでキャリブレーションのない3D前駆体を提供することにより、単分子SLAMを進化させた。
しかし、これらのモデルを高密度なビデオストリームにデプロイすると、かなりの計算冗長性がもたらされる。
現在のGFMベースのSLAMシステムは、一般的にポストホックキーフレームの選択に依存している。
このため、フレームが新しい幾何学を含むかどうかを判断するためには、高価な密度の幾何学的復号をしなければならない。
この非効率性を軽減するために,軽量フィードフォワードフレームゲーティングネットワークであるLeanGateを提案する。
LeanGateは、重いGFM特徴抽出とマッチングステージの前にフレームのマッピング値を評価するために、幾何学的ユーティリティスコアを予測する。
予測的なプラグアンドプレイモジュールとして、我々のアプローチは冗長フレームの90%以上をバイパスする。
標準的なSLAMベンチマークの評価によると、LeanGateはFLOPのトラッキングを85%以上削減し、エンドツーエンドのスループットを5倍に向上する。
さらに、高密度ベースラインの追跡とマッピングの精度も維持する。
関連論文リスト
- Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM [30.770651925808846]
本稿では,3つのコアモジュールからなるシステムであるFlash-Monoを紹介する。
マルチフレームコンテキストを活用するフィードフォワードパラダイムは、これらの課題に対処するために不可欠である。
ガウス属性を直接予測することにより、最適化に基づくGS-SLAMに必要なフレーム毎の負担を回避できる。
論文 参考訳(メタデータ) (2026-04-03T15:17:23Z) - $D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation [72.9912717963138]
リモートセンシング画像からのリアルタイムで高忠実な単眼深度推定は、多くのアプリケーションにとって不可欠である。
視覚変換器(ViT)のバックボーンを高密度な予測に使用するのは速いが、知覚品質は低いことが多い。
リモートセンシング単眼深度推定のための深度詳細拡散法(D3$-RSMDE)を提案する。
D3$-RSMDEは、Learninged Perceptual Image Patch similarity (LPIPS)の知覚距離を11.85%削減する。
論文 参考訳(メタデータ) (2026-03-17T10:50:36Z) - CoWTracker: Tracking by Warping instead of Correlation [53.834673070954494]
ワープに有利なコストを削減できる高密度な点トラッカーを提案する。
近年の光学的流れの進展に触発されて,本手法では,現在の推定値に基づいて,対象フレームからクエリフレームへ特徴を変換することで,トラック推定を反復的に洗練する。
我々のモデルは,TAP-Vid-DAVIS,TAP-Vid-Kinetics,Robo-TAPなど,標準的な高密度点追跡ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-04T18:58:59Z) - MASt3R-Fusion: Integrating Feed-Forward Visual Model with IMU, GNSS for High-Functionality SLAM [12.158063913401575]
フィードフォワード・ポイントマップ・レグレッションと相補的なセンサ情報を統合するマルチセンサ支援視覚SLAMフレームワークMASt3R-Fusionを提案する。
実時間スライディングウインドウ最適化とアグレッシブループ閉鎖を伴う大域的最適化の両立が可能な階層的因子グラフ設計法を開発した。
我々は、公開ベンチマークと自己収集データセットの両方に対するアプローチを評価し、精度とロバスト性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-09-25T05:26:28Z) - MCGS-SLAM: A Multi-Camera SLAM Framework Using Gaussian Splatting for High-Fidelity Mapping [52.99503784067417]
3次元ガウス平板上に構築した初のRGBベースのマルチカメラSLAMシステムMCGS-SLAM(3DGS)を提案する。
マルチカメラバンドル調整(MCBA)は、高密度の測光および幾何残差を介してポーズと深さを共同で洗練し、スケール整合モジュールはビューを横断する計量アライメントを強制する。
合成および実世界のデータセットの実験は、MCGS-SLAMが一貫して正確な軌道と光現実的再構成をもたらすことを示している。
論文 参考訳(メタデータ) (2025-09-17T17:27:53Z) - Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - TVG-SLAM: Robust Gaussian Splatting SLAM with Tri-view Geometric Constraints [22.121665995381324]
TVG-SLAMはRGBのみの堅牢な3DGS SLAMシステムである。
本手法はロバスト性を向上し,平均的絶対軌道誤差(ATE)を69.0%削減し,最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-06-29T12:31:05Z) - MambaVO: Deep Visual Odometry Based on Sequential Matching Refinement and Training Smoothing [13.827464353174182]
MambaVOは、マッチング品質を高め、ポーズ推定を改善するために、堅牢でマンバベースのマッチングとトレーニングを実行する。
公開ベンチマークでは、MambaVOとMambaVO++がSOTAのパフォーマンスを示し、リアルタイム実行を保証する。
論文 参考訳(メタデータ) (2024-12-28T08:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。