論文の概要: MambaVO: Deep Visual Odometry Based on Sequential Matching Refinement and Training Smoothing
- arxiv url: http://arxiv.org/abs/2412.20082v1
- Date: Sat, 28 Dec 2024 08:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:35.829207
- Title: MambaVO: Deep Visual Odometry Based on Sequential Matching Refinement and Training Smoothing
- Title(参考訳): MambaVO: 逐次マッチングリファインメントとトレーニングの平滑化に基づく深部視覚オドメトリー
- Authors: Shuo Wang, Wanting Li, Yongcai Wang, Zhaoxin Fan, Zhe Huang, Xudong Cai, Jian Zhao, Deying Li,
- Abstract要約: MambaVOは、堅牢でマンバベースのシーケンシャルなマッチング改善を行い、マッチング品質を高めるためのスムーズなトレーニングを行う。
公開ベンチマークでは、MambaVOとMamba++がSOTAの精度性能を示し、低メモリ要求でリアルタイム実行性能を保証する。
- 参考スコア(独自算出の注目度): 13.827464353174182
- License:
- Abstract: Deep visual odometry has demonstrated great advancements by learning-to-optimize technology. This approach heavily relies on the visual matching across frames. However, ambiguous matching in challenging scenarios leads to significant errors in geometric modeling and bundle adjustment optimization, which undermines the accuracy and robustness of pose estimation. To address this challenge, this paper proposes MambaVO, which conducts robust initialization, Mamba-based sequential matching refinement, and smoothed training to enhance the matching quality and improve the pose estimation in deep visual odometry. Specifically, when a new frame is received, it is matched with the closest keyframe in the maintained Point-Frame Graph (PFG) via the semi-dense based Geometric Initialization Module (GIM). Then the initialized PFG is processed by a proposed Geometric Mamba Module (GMM), which exploits the matching features to refine the overall inter-frame pixel-to-pixel matching. The refined PFG is finally processed by deep BA to optimize the poses and the map. To deal with the gradient variance, a Trending-Aware Penalty (TAP) is proposed to smooth training by balancing the pose loss and the matching loss to enhance convergence and stability. A loop closure module is finally applied to enable MambaVO++. On public benchmarks, MambaVO and MambaVO++ demonstrate SOTA accuracy performance, while ensuring real-time running performance with low GPU memory requirement. Codes will be publicly available.
- Abstract(参考訳): ディープ・ビジュアル・オドメトリーは、学習と最適化技術によって大きな進歩を見せている。
このアプローチは、フレーム間の視覚的マッチングに大きく依存する。
しかし、難解なシナリオにおけるあいまいなマッチングは、幾何モデリングとバンドル調整の最適化において重大な誤差をもたらすため、ポーズ推定の精度とロバスト性を損なう。
この課題に対処するために,マンバをベースとした逐次整合性向上とスムーズなトレーニングを行い,マッチング品質の向上と深部視覚計測におけるポーズ推定の改善を図るMambaVOを提案する。
具体的には、新しいフレームが受信されると、半線ベースの幾何初期化モジュール(GIM)を介して保守されたポイントフレームグラフ(PFG)の最も近いキーフレームにマッチする。
初期化されたPFGはGeometric Mamba Module (GMM) によって処理される。
精製されたPFGは最終的に深部BAによって処理され、ポーズとマップを最適化する。
勾配変動に対処するために, 姿勢損失と一致損失のバランスをとることで, 収束と安定性を高めることで, 学習の円滑化を図るために, トレンド・アウェア・ペナルティ(TAP)を提案する。
MambaVO++を有効にするためにループクロージャモジュールが最終的に適用される。
公開ベンチマークでは、MambaVOとMambaVO++がSOTAの精度性能を示し、GPUメモリの低いリアルタイム実行性能を保証する。
コードは公開されます。
関連論文リスト
- XR-VIO: High-precision Visual Inertial Odometry with Fast Initialization for XR Applications [34.2082611110639]
本稿では,視覚慣性オドメトリー(VIO)に対する新しいアプローチとして,初期化と特徴マッチングモジュールについて述べる。
ジャイロスコープの既存の方法は、運動からの視覚構造(SfM)の安定性の低下や、膨大な数のパラメータの同時解決に悩まされることが多い。
測定値の密結合により,視覚的SfMの堅牢性と精度が向上する。
特徴マッチングに関しては,光学フローとディスクリプタベースマッチングを組み合わせたハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T12:17:51Z) - Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-09T18:58:30Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - PyMAF-X: Towards Well-aligned Full-body Model Regression from Monocular
Images [60.33197938330409]
PyMAF-Xは、モノクロ画像からパラメトリックフルボディモデルを復元するための回帰ベースのアプローチである。
PyMAFとPyMAF-Xは、メッシュイメージアライメントを効果的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-07-13T17:58:33Z) - DFM: A Performance Baseline for Deep Feature Matching [10.014010310188821]
提案手法では,事前学習したVGGアーキテクチャを特徴抽出器として使用し,マッチングを改善するために追加の訓練を必要としない。
提案アルゴリズムは,Hpatchesデータセット上で,平均マッチング精度(MMA)で0.57と0.80のスコアをそれぞれ1ピクセル,2ピクセルの閾値で達成する。
論文 参考訳(メタデータ) (2021-06-14T22:55:06Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment
Feedback Loop [128.07841893637337]
回帰に基づく手法は最近、単眼画像からヒトのメッシュを再構成する有望な結果を示した。
パラメータの小さな偏差は、推定メッシュと画像のエビデンスの間に顕著な不一致を引き起こす可能性がある。
本稿では,特徴ピラミッドを活用し,予測パラメータを補正するために,ピラミッドメッシュアライメントフィードバック(pymaf)ループを提案する。
論文 参考訳(メタデータ) (2021-03-30T17:07:49Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。