論文の概要: DVLO4D: Deep Visual-Lidar Odometry with Sparse Spatial-temporal Fusion
- arxiv url: http://arxiv.org/abs/2509.06023v1
- Date: Sun, 07 Sep 2025 11:43:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.820838
- Title: DVLO4D: Deep Visual-Lidar Odometry with Sparse Spatial-temporal Fusion
- Title(参考訳): DVLO4D:空間-時空間核融合による深部視覚ライダーオドメトリー
- Authors: Mengmeng Liu, Michael Ying Yang, Jiuming Liu, Yunpeng Zhang, Jiangtao Li, Sander Oude Elberink, George Vosselman, Hao Cheng,
- Abstract要約: DVLO4Dは,空間-時空間融合を利用して精度とロバスト性を向上する新しい視覚-LiDARオドメトリーフレームワークである。
提案手法は,82msの予測時間を持つ高効率で,実時間展開の可能性を秘めている。
- 参考スコア(独自算出の注目度): 28.146811420532455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-LiDAR odometry is a critical component for autonomous system localization, yet achieving high accuracy and strong robustness remains a challenge. Traditional approaches commonly struggle with sensor misalignment, fail to fully leverage temporal information, and require extensive manual tuning to handle diverse sensor configurations. To address these problems, we introduce DVLO4D, a novel visual-LiDAR odometry framework that leverages sparse spatial-temporal fusion to enhance accuracy and robustness. Our approach proposes three key innovations: (1) Sparse Query Fusion, which utilizes sparse LiDAR queries for effective multi-modal data fusion; (2) a Temporal Interaction and Update module that integrates temporally-predicted positions with current frame data, providing better initialization values for pose estimation and enhancing model's robustness against accumulative errors; and (3) a Temporal Clip Training strategy combined with a Collective Average Loss mechanism that aggregates losses across multiple frames, enabling global optimization and reducing the scale drift over long sequences. Extensive experiments on the KITTI and Argoverse Odometry dataset demonstrate the superiority of our proposed DVLO4D, which achieves state-of-the-art performance in terms of both pose accuracy and robustness. Additionally, our method has high efficiency, with an inference time of 82 ms, possessing the potential for the real-time deployment.
- Abstract(参考訳): Visual-LiDAR odometryは、自律的なシステムローカライゼーションにとって重要なコンポーネントであるが、高い精度と強力な堅牢性を達成することは依然として課題である。
従来のアプローチでは、センサのミスアライメントに悩まされ、時間的情報を完全に活用できず、多様なセンサー構成を扱うために広範囲な手動チューニングが必要だった。
DVLO4Dは,空間・時間的疎結合を利用して精度とロバスト性を向上する新しい視覚-LiDARオドメトリーフレームワークである。
提案手法は, スパースクエリ・フュージョンを有効マルチモーダルデータ融合に活用するスパースクエリ・フュージョン, 2) 時間的に予測された位置を現在のフレームデータと統合した時間的インタラクション・アップデートモジュール, モデルが蓄積するアキュマティブエラーに対するロバスト性を推定・拡張するためのより優れた初期化値を提供する, (3) 複数のフレームにまたがる損失を集約する集合平均損失機構と組み合わせたテンポラルクリップトレーニング戦略を提案する。
KITTIとArgoverse Odometryデータセットの大規模な実験により,提案したDVLO4Dの精度とロバスト性の両方の観点から,最先端性能を実現することができた。
さらに,提案手法は実時間展開の可能性を秘めた82msの予測時間を有する高効率な手法である。
関連論文リスト
- Temporal and Rotational Calibration for Event-Centric Multi-Sensor Systems [24.110040599070796]
イベントカメラは画素レベルの明るさ変化に応じて非同期信号を生成する。
イベント中心型マルチセンサシステムに適した動きに基づく時間・回転キャリブレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-18T01:53:27Z) - SCENT: Robust Spatiotemporal Learning for Continuous Scientific Data via Scalable Conditioned Neural Fields [11.872753517172555]
SCENTは、スケーラブルで連続性に富んだモデリング学習のための新しいフレームワークである。
SCENTは単一のアーキテクチャ内で表現、再構築、予測を統一する。
我々はSCENTを広範囲なシミュレーションと実世界の実験により検証し、最先端の性能を実証した。
論文 参考訳(メタデータ) (2025-04-16T17:17:31Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Universal Online Temporal Calibration for Optimization-based Visual-Inertial Navigation Systems [13.416013522770905]
最適化に基づくビジュアル慣性ナビゲーションシステムのための汎用的なオンライン時間的キャリブレーション戦略を提案する。
我々は、最適化残差モデルにおいて、タイムオフセットtdを状態パラメータとして使用し、IMU状態を対応する画像のタイムスタンプに整列させる。
我々のアプローチは、特にノイズの多いセンサデータの存在下で、より正確な時間オフセット推定とより高速な収束を提供する。
論文 参考訳(メタデータ) (2025-01-03T12:41:25Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - StreamLTS: Query-based Temporal-Spatial LiDAR Fusion for Cooperative Object Detection [0.552480439325792]
我々は、広く使われているデータセットOPV2VとDairV2Xを適応させる、TA-COOD(Time-Aligned Cooperative Object Detection)を提案する。
実験結果から, 最先端の高密度モデルと比較して, 完全スパースフレームワークの優れた効率性が確認された。
論文 参考訳(メタデータ) (2024-07-04T10:56:10Z) - Enhanced Spatio-Temporal Context for Temporally Consistent Robust 3D
Human Motion Recovery from Monocular Videos [5.258814754543826]
本稿では,モノクロ映像からの時間的一貫した動き推定手法を提案する。
汎用的なResNetのような機能を使う代わりに、本手法ではボディ認識機能表現と独立したフレーム単位のポーズを使用する。
提案手法は, 高速化誤差を著しく低減し, 既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2023-11-20T10:53:59Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。