論文の概要: End-to-End Learned Event- and Image-based Visual Odometry
- arxiv url: http://arxiv.org/abs/2309.09947v1
- Date: Mon, 18 Sep 2023 17:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:09:23.871050
- Title: End-to-End Learned Event- and Image-based Visual Odometry
- Title(参考訳): エンド・ツー・エンド学習イベントと画像に基づく視覚オドメトリ
- Authors: Roberto Pellerito, Marco Cannici, Daniel Gehrig, Joris Belhadj,
Olivier Dubois-Matra, Massimo Casasco, Davide Scaramuzza
- Abstract要約: ビジュアルオドメトリー(VO)は、自律的なロボットナビゲーション、特に惑星の地形のようなGPSで特定された環境では不可欠である。
本稿では,最初のエンドツーエンド学習イベントと画像ベースVOシステムであるRAMP-VOを紹介する。
新たなRecurrent, Asynchronous, Massively Parallel(RAMP)エンコーダを活用し、既存の非同期エンコーダよりも8倍高速で20%精度がある。
RAMP-VOは、従来の実世界のベンチマークと新しく導入されたアポロとマラパートの着陸シーケンスで、画像ベースの手法とイベントベースの手法をそれぞれ52%、20%上回っている。
- 参考スコア(独自算出の注目度): 21.777429274934644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Odometry (VO) is crucial for autonomous robotic navigation, especially
in GPS-denied environments like planetary terrains. While standard RGB cameras
struggle in low-light or high-speed motion, event-based cameras offer high
dynamic range and low latency. However, seamlessly integrating asynchronous
event data with synchronous frames remains challenging. We introduce RAMP-VO,
the first end-to-end learned event- and image-based VO system. It leverages
novel Recurrent, Asynchronous, and Massively Parallel (RAMP) encoders that are
8x faster and 20% more accurate than existing asynchronous encoders. RAMP-VO
further employs a novel pose forecasting technique to predict future poses for
initialization. Despite being trained only in simulation, RAMP-VO outperforms
image- and event-based methods by 52% and 20%, respectively, on traditional,
real-world benchmarks as well as newly introduced Apollo and Malapert landing
sequences, paving the way for robust and asynchronous VO in space.
- Abstract(参考訳): ビジュアルオドメトリー(VO)は、自律的なロボットナビゲーション、特に惑星の地形のようなGPSで特定された環境では不可欠である。
標準のRGBカメラは低照度または高速動作で苦労するが、イベントベースのカメラは高いダイナミックレンジと低レイテンシを提供する。
しかし、非同期イベントデータを同期フレームとシームレスに統合することは依然として難しい。
本稿では,最初のエンドツーエンド学習イベントと画像ベースVOシステムであるRAMP-VOを紹介する。
新たなRecurrent, Asynchronous, Massively Parallel(RAMP)エンコーダを活用し、既存の非同期エンコーダよりも8倍高速で20%精度がある。
ramp-voはさらに、新しいポーズ予測技術を使用して、初期化のための将来のポーズを予測する。
シミュレーションのみのトレーニングにもかかわらず、RAMP-VOは従来の実世界のベンチマークと新しく導入されたApolloとMalapertのランディングシーケンスで、イメージベースとイベントベースのメソッドをそれぞれ52%、イベントベースで20%上回り、宇宙での堅牢なVOと非同期VOの道を開いた。
関連論文リスト
- An Asynchronous Linear Filter Architecture for Hybrid Event-Frame
Cameras [10.591040194296315]
本稿では,HDRビデオ再構成と空間畳み込みのための非同期線形フィルタアーキテクチャを提案する。
提案したAKFパイプラインは、絶対強度誤差(69.4%削減)と画像類似度指数(平均35.5%改善)の両方において、他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-03T12:37:59Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Event Camera-based Visual Odometry for Dynamic Motion Tracking of a
Legged Robot Using Adaptive Time Surface [5.341864681049579]
イベントカメラは高時間分解能とダイナミックレンジを提供しており、高速移動時のぼやけたRGB画像の問題を排除できる。
本稿では,従来の時間面におけるホワイトアウト問題とブラックアウト問題に対処する適応時間面(ATS)手法を提案する。
最後に,RGBとイベントベースの地図と画像の両方で3D-2Dアライメントを同時に行う非線形ポーズ最適化式を提案する。
論文 参考訳(メタデータ) (2023-05-15T19:03:45Z) - Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and
Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。
提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文 参考訳(メタデータ) (2023-04-14T05:30:02Z) - Asynchronous Optimisation for Event-based Visual Odometry [53.59879499700895]
イベントカメラは、低レイテンシと高ダイナミックレンジのために、ロボット知覚の新しい可能性を開く。
イベントベースビジュアル・オドメトリー(VO)に焦点をあてる
動作最適化のバックエンドとして非同期構造を提案する。
論文 参考訳(メタデータ) (2022-03-02T11:28:47Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z) - Exploiting Event Cameras for Spatio-Temporal Prediction of Fast-Changing
Trajectories [7.13400854198045]
本稿では,ロボットと移動目標との相互作用を改善するため,ロボットの軌道予測について検討する。
本稿では,Long-Short Term Memory (LSTM)アーキテクチャに基づく機械学習の現状について述べる。
論文 参考訳(メタデータ) (2020-01-05T14:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。