論文の概要: Leveraging Consistent Spatio-Temporal Correspondence for Robust Visual Odometry
- arxiv url: http://arxiv.org/abs/2412.16923v1
- Date: Sun, 22 Dec 2024 08:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:22.309162
- Title: Leveraging Consistent Spatio-Temporal Correspondence for Robust Visual Odometry
- Title(参考訳): ロバスト・ビジュアル・オドメトリーにおける連続時空間対応の活用
- Authors: Zhaoxing Zhang, Junda Cheng, Gangwei Xu, Xiaoxiang Wang, Can Zhang, Xin Yang,
- Abstract要約: S-Temporal Visual Odometry (STVO) は,マルチフレームフローマッチングの精度と一貫性を高めるための,新しいディープネットワークアーキテクチャである。
我々のSTVOはETH3Dベンチマークの最先端性能とKITTI Odometryベンチマークの38.9%を実現している。
- 参考スコア(独自算出の注目度): 7.517597541959445
- License:
- Abstract: Recent approaches to VO have significantly improved performance by using deep networks to predict optical flow between video frames. However, existing methods still suffer from noisy and inconsistent flow matching, making it difficult to handle challenging scenarios and long-sequence estimation. To overcome these challenges, we introduce Spatio-Temporal Visual Odometry (STVO), a novel deep network architecture that effectively leverages inherent spatio-temporal cues to enhance the accuracy and consistency of multi-frame flow matching. With more accurate and consistent flow matching, STVO can achieve better pose estimation through the bundle adjustment (BA). Specifically, STVO introduces two innovative components: 1) the Temporal Propagation Module that utilizes multi-frame information to extract and propagate temporal cues across adjacent frames, maintaining temporal consistency; 2) the Spatial Activation Module that utilizes geometric priors from the depth maps to enhance spatial consistency while filtering out excessive noise and incorrect matches. Our STVO achieves state-of-the-art performance on TUM-RGBD, EuRoc MAV, ETH3D and KITTI Odometry benchmarks. Notably, it improves accuracy by 77.8% on ETH3D benchmark and 38.9% on KITTI Odometry benchmark over the previous best methods.
- Abstract(参考訳): 近年,ビデオフレーム間の光学的流れの予測にディープネットワークを用いることで,VOに対する最近のアプローチにより性能が大幅に向上した。
しかし,既存の手法は相容れない流れマッチングに苦しむため,難解なシナリオや長時間の予測処理が困難である。
これらの課題を克服するために,本研究では,複数フレームフローマッチングの精度と整合性を高めるために,本質的に時空間キューを効果的に活用する,新しいディープネットワークアーキテクチャであるSpatio-Temporal Visual Odometry (STVO)を導入する。
より正確で一貫したフローマッチングにより、STVOはバンドル調整(BA)によりより優れたポーズ推定を行うことができる。
特にSTVOは、2つの革新的なコンポーネントを導入している。
1) 多フレーム情報を利用した時間的伝播モジュールは,時間的整合性を維持しつつ,隣接するフレームを横断して時間的手がかりを抽出し,伝播させる。
2) 深度マップからの幾何学的先行情報を利用した空間活性化モジュールは, 過度なノイズや不正確な一致を除去しながら, 空間整合性を高める。
我々のSTVOは、TUM-RGBD、EuRoc MAV、ETH3D、KITTI Odometryベンチマークの最先端性能を達成する。
特に、ETH3Dベンチマークでは77.8%、KITTI Odometryベンチマークでは38.9%の精度向上を実現している。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - FlowMOT: 3D Multi-Object Tracking by Scene Flow Association [9.480272707157747]
従来のマッチングアルゴリズムと点運動情報を統合するLiDARベースの3D MOTフレームワークFlowMOTを提案する。
提案手法は,最新のエンドツーエンド手法より優れ,最先端のフィルタ方式と競合する性能を実現する。
論文 参考訳(メタデータ) (2020-12-14T14:03:48Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - StickyPillars: Robust and Efficient Feature Matching on Point Clouds
using Graph Neural Networks [16.940377259203284]
StickyPillarsは、ポイントクラウド上の高速で正確で、非常に堅牢な3D機能マッチング方法である。
KITTIデータセット上で実証された登録問題に対して,最先端技術による精度評価結果を示す。
我々はマッチングシステムをLiDARオドメトリーパイプラインに統合し、KITTIデータセット上で最も正確な結果を得る。
論文 参考訳(メタデータ) (2020-02-10T17:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。