論文の概要: Deep Visual Odometry with Events and Frames
- arxiv url: http://arxiv.org/abs/2309.09947v3
- Date: Tue, 10 Sep 2024 17:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 23:57:26.356998
- Title: Deep Visual Odometry with Events and Frames
- Title(参考訳): イベントとフレームを用いた深部視覚計測
- Authors: Roberto Pellerito, Marco Cannici, Daniel Gehrig, Joris Belhadj, Olivier Dubois-Matra, Massimo Casasco, Davide Scaramuzza,
- Abstract要約: 本稿では,最初のエンドツーエンドの学習画像とイベントベースのVOシステムであるRAMP-VOを紹介する。
新たなRecurrent、Asynchronous、Massively Parallel(RAMP)エンコーダを利用して、画像データと非同期イベントを融合し、既存のソリューションよりも8倍高速な推論と33%正確な予測を提供する。
RAMP-VOは、新しく導入されたApolloとMalapertのデータセット、および既存のベンチマークで、以前の方法より優れている。
- 参考スコア(独自算出の注目度): 20.737530846241096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Odometry (VO) is crucial for autonomous robotic navigation, especially in GPS-denied environments like planetary terrains. To improve robustness, recent model-based VO systems have begun combining standard and event-based cameras. While event cameras excel in low-light and high-speed motion, standard cameras provide dense and easier-to-track features. However, the field of image- and event-based VO still predominantly relies on model-based methods and is yet to fully integrate recent image-only advancements leveraging end-to-end learning-based architectures. Seamlessly integrating the two modalities remains challenging due to their different nature, one asynchronous, the other not, limiting the potential for a more effective image- and event-based VO. We introduce RAMP-VO, the first end-to-end learned image- and event-based VO system. It leverages novel Recurrent, Asynchronous, and Massively Parallel (RAMP) encoders capable of fusing asynchronous events with image data, providing 8x faster inference and 33% more accurate predictions than existing solutions. Despite being trained only in simulation, RAMP-VO outperforms previous methods on the newly introduced Apollo and Malapert datasets, and on existing benchmarks, where it improves image- and event-based methods by 58.8% and 30.6%, paving the way for robust and asynchronous VO in space.
- Abstract(参考訳): ビジュアルオドメトリー(VO)は、自律的なロボットナビゲーション、特に惑星の地形のようなGPSで特定された環境では不可欠である。
堅牢性を改善するため、最近のモデルベースVOシステムは標準カメラとイベントベースカメラの組み合わせを開始している。
イベントカメラは低照度で高速な動きが優れているが、標準的なカメラは密度が高く、トラックが簡単になる。
しかし、画像とイベントベースのVOの分野は依然としてモデルベースの手法に依存しており、エンドツーエンドの学習ベースのアーキテクチャを活用する最近の画像のみの進歩を完全には統合していない。
ひとつは非同期で、もうひとつはそうで、より効果的なイメージとイベントベースのVOの可能性を制限する。
本稿では,最初のエンドツーエンドの学習画像とイベントベースのVOシステムであるRAMP-VOを紹介する。
新たなRecurrent、Asynchronous、Massively Parallel(RAMP)エンコーダを利用して、画像データと非同期イベントを融合し、既存のソリューションよりも8倍高速な推論と33%正確な予測を提供する。
シミュレーションのみのトレーニングにもかかわらず、RAMP-VOは新しく導入されたApolloとMalapertのデータセット、および既存のベンチマークで、画像およびイベントベースのメソッドを58.8%と30.6%改善し、宇宙での堅牢で非同期なVOへの道を開いた。
関連論文リスト
- ES-PTAM: Event-based Stereo Parallel Tracking and Mapping [11.801511288805225]
イベントカメラは、標準的なカメラの限界を克服する利点を提供する。
2つのアイデアを組み合わせたイベントベースステレオVOシステムを提案する。
実世界の5つのデータセットからシステムを評価する。
論文 参考訳(メタデータ) (2024-08-28T07:56:28Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - HeteroEdge: Addressing Asymmetry in Heterogeneous Collaborative
Autonomous Systems [1.274065448486689]
2台の無人地上車両(UGV)と2台のNVIDIA Jetsonデバイスからなるテストベッドの自己適応最適化フレームワークを提案する。
このフレームワークは、異種ノード上の複数のタスク(ストレージ、処理、計算、送信、推論)を同時に効率的に管理する。
入力された画像フレームの圧縮とマスキング、類似したフレームの識別、および最適化のための境界条件を得るためにプロファイリング装置を含む。
論文 参考訳(メタデータ) (2023-05-05T02:43:16Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - Asynchronous Optimisation for Event-based Visual Odometry [53.59879499700895]
イベントカメラは、低レイテンシと高ダイナミックレンジのために、ロボット知覚の新しい可能性を開く。
イベントベースビジュアル・オドメトリー(VO)に焦点をあてる
動作最適化のバックエンドとして非同期構造を提案する。
論文 参考訳(メタデータ) (2022-03-02T11:28:47Z) - Feature-based Event Stereo Visual Odometry [2.7298989068857487]
本稿では,特徴検出と注意深い特徴管理の整合性に基づく,イベントカメラのための新しいステレオ・ビジュアル・オドメトリー法を提案する。
提案手法を,屋内飛行ドローンが取得したMVSECシーケンスとDSEC屋外運転シーケンスの2つの公開データセットで評価した。
論文 参考訳(メタデータ) (2021-07-10T22:36:49Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。