Fugu-MT 論文翻訳(概要): End-to-End Learned Event- and Image-based Visual Odometry

論文の概要: End-to-End Learned Event- and Image-based Visual Odometry

arxiv url: http://arxiv.org/abs/2309.09947v1
Date: Mon, 18 Sep 2023 17:12:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 12:09:23.871050
Title: End-to-End Learned Event- and Image-based Visual Odometry
Title（参考訳）: エンド・ツー・エンド学習イベントと画像に基づく視覚オドメトリ
Authors: Roberto Pellerito, Marco Cannici, Daniel Gehrig, Joris Belhadj, Olivier Dubois-Matra, Massimo Casasco, Davide Scaramuzza
Abstract要約: ビジュアルオドメトリー(VO)は、自律的なロボットナビゲーション、特に惑星の地形のようなGPSで特定された環境では不可欠である。本稿では,最初のエンドツーエンド学習イベントと画像ベースVOシステムであるRAMP-VOを紹介する。新たなRecurrent, Asynchronous, Massively Parallel(RAMP)エンコーダを活用し、既存の非同期エンコーダよりも8倍高速で20%精度がある。 RAMP-VOは、従来の実世界のベンチマークと新しく導入されたアポロとマラパートの着陸シーケンスで、画像ベースの手法とイベントベースの手法をそれぞれ52%、20%上回っている。
参考スコア（独自算出の注目度）: 21.777429274934644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Odometry (VO) is crucial for autonomous robotic navigation, especially in GPS-denied environments like planetary terrains. While standard RGB cameras struggle in low-light or high-speed motion, event-based cameras offer high dynamic range and low latency. However, seamlessly integrating asynchronous event data with synchronous frames remains challenging. We introduce RAMP-VO, the first end-to-end learned event- and image-based VO system. It leverages novel Recurrent, Asynchronous, and Massively Parallel (RAMP) encoders that are 8x faster and 20% more accurate than existing asynchronous encoders. RAMP-VO further employs a novel pose forecasting technique to predict future poses for initialization. Despite being trained only in simulation, RAMP-VO outperforms image- and event-based methods by 52% and 20%, respectively, on traditional, real-world benchmarks as well as newly introduced Apollo and Malapert landing sequences, paving the way for robust and asynchronous VO in space.
Abstract（参考訳）: ビジュアルオドメトリー(VO)は、自律的なロボットナビゲーション、特に惑星の地形のようなGPSで特定された環境では不可欠である。標準のRGBカメラは低照度または高速動作で苦労するが、イベントベースのカメラは高いダイナミックレンジと低レイテンシを提供する。しかし、非同期イベントデータを同期フレームとシームレスに統合することは依然として難しい。本稿では,最初のエンドツーエンド学習イベントと画像ベースVOシステムであるRAMP-VOを紹介する。新たなRecurrent, Asynchronous, Massively Parallel(RAMP)エンコーダを活用し、既存の非同期エンコーダよりも8倍高速で20%精度がある。 ramp-voはさらに、新しいポーズ予測技術を使用して、初期化のための将来のポーズを予測する。シミュレーションのみのトレーニングにもかかわらず、RAMP-VOは従来の実世界のベンチマークと新しく導入されたApolloとMalapertのランディングシーケンスで、イメージベースとイベントベースのメソッドをそれぞれ52%、イベントベースで20%上回り、宇宙での堅牢なVOと非同期VOの道を開いた。

関連論文リスト

DINO-VO: A Feature-based Visual Odometry Leveraging a Visual Foundation Model [2.163881720692685]
学習に基づく単眼視覚計測(VO)は、ロボット工学において堅牢性、一般化、効率性の課題を提起する。 DINOv2のような視覚基盤モデルの最近の進歩は、様々な視覚タスクにおける堅牢性と一般化を改善した。本稿では,DINOv2視覚基盤モデルを利用した機能ベースVOシステムであるDINO-VOについて述べる。
論文参考訳（メタデータ） (2025-07-17T14:09:34Z)
Spatiotemporal Attention Learning Framework for Event-Driven Object Recognition [1.0445957451908694]
イベントベースの視覚センサは、位置、極性、情報を含むスパースイベントストリームとして、局所ピクセルレベルの強度変化をキャプチャする。本稿では、CBAM(Contemporalal Block Attention Module)により強化されたVARGGネットワークを利用した、イベントベースのオブジェクト認識のための新しい学習フレームワークを提案する。提案手法は,従来のVGGモデルと比較してパラメータ数を2.3%削減しつつ,最先端のResNet手法に匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-04-01T02:37:54Z)
EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera [17.61884467264023]
本稿では,イベントデータ処理に特化して設計された新しいネットワークアーキテクチャを提案する。イベントカメラを用いたエゴセントリックなジェスチャー認識のための,最初の大規模データセットを構築した。本手法は,7Mパラメータのみの未確認被験者に対して62.7%の精度を達成し,最先端手法よりも3.1%高い精度を示した。
論文参考訳（メタデータ） (2025-03-16T09:08:02Z)
Event-Based Video Frame Interpolation With Cross-Modal Asymmetric Bidirectional Motion Fields [39.214857326425204]
ビデオフレーム補間 (VFI) は連続的な入力フレーム間の中間映像フレームを生成することを目的としている。クロスモーダルな非対称な双方向運動場推定を行うイベントベースVFIフレームワークを提案する。提案手法は, 各種データセット上での最先端VFI法よりも高い性能向上を示す。
論文参考訳（メタデータ） (2025-02-19T13:40:43Z)
ES-PTAM: Event-based Stereo Parallel Tracking and Mapping [11.801511288805225]
イベントカメラは、標準的なカメラの限界を克服する利点を提供する。 2つのアイデアを組み合わせたイベントベースステレオVOシステムを提案する。実世界の5つのデータセットからシステムを評価する。
論文参考訳（メタデータ） (2024-08-28T07:56:28Z)
E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文参考訳（メタデータ） (2024-01-16T05:10:50Z)
EventTransAct: A video transformer-based framework for Event-camera based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文参考訳（メタデータ） (2023-08-25T23:51:07Z)
HeteroEdge: Addressing Asymmetry in Heterogeneous Collaborative Autonomous Systems [1.274065448486689]
2台の無人地上車両(UGV)と2台のNVIDIA Jetsonデバイスからなるテストベッドの自己適応最適化フレームワークを提案する。このフレームワークは、異種ノード上の複数のタスク(ストレージ、処理、計算、送信、推論)を同時に効率的に管理する。入力された画像フレームの圧縮とマスキング、類似したフレームの識別、および最適化のための境界条件を得るためにプロファイリング装置を含む。
論文参考訳（メタデータ） (2023-05-05T02:43:16Z)
HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文参考訳（メタデータ） (2022-11-19T17:09:50Z)
Asynchronous Optimisation for Event-based Visual Odometry [53.59879499700895]
イベントカメラは、低レイテンシと高ダイナミックレンジのために、ロボット知覚の新しい可能性を開く。イベントベースビジュアル・オドメトリー(VO)に焦点をあてる動作最適化のバックエンドとして非同期構造を提案する。
論文参考訳（メタデータ） (2022-03-02T11:28:47Z)
Feature-based Event Stereo Visual Odometry [2.7298989068857487]
本稿では,特徴検出と注意深い特徴管理の整合性に基づく,イベントカメラのための新しいステレオ・ビジュアル・オドメトリー法を提案する。提案手法を,屋内飛行ドローンが取得したMVSECシーケンスとDSEC屋外運転シーケンスの2つの公開データセットで評価した。
論文参考訳（メタデータ） (2021-07-10T22:36:49Z)
TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文参考訳（メタデータ） (2021-06-14T10:33:47Z)
Combining Events and Frames using Recurrent Asynchronous Multimodal Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文参考訳（メタデータ） (2021-02-18T13:24:35Z)
Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-10-16T12:36:23Z)
Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文参考訳（メタデータ） (2020-03-20T08:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。