論文の概要: Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction
- arxiv url: http://arxiv.org/abs/2102.09320v1
- Date: Thu, 18 Feb 2021 13:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 21:49:29.969609
- Title: Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction
- Title(参考訳): 単眼深予測のための並列同期マルチモーダルネットワークを用いたイベントとフレームの組み合わせ
- Authors: Daniel Gehrig, Michelle R\"uegg, Mathias Gehrig, Javier Hidalgo
Carrio, Davide Scaramuzza
- Abstract要約: 複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
- 参考スコア(独自算出の注目度): 51.072733683919246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras are novel vision sensors that report per-pixel brightness
changes as a stream of asynchronous "events". They offer significant advantages
compared to standard cameras due to their high temporal resolution, high
dynamic range and lack of motion blur. However, events only measure the varying
component of the visual signal, which limits their ability to encode scene
context. By contrast, standard cameras measure absolute intensity frames, which
capture a much richer representation of the scene. Both sensors are thus
complementary. However, due to the asynchronous nature of events, combining
them with synchronous images remains challenging, especially for learning-based
methods. This is because traditional recurrent neural networks (RNNs) are not
designed for asynchronous and irregular data from additional sensors. To
address this challenge, we introduce Recurrent Asynchronous Multimodal (RAM)
networks, which generalize traditional RNNs to handle asynchronous and
irregular data from multiple sensors. Inspired by traditional RNNs, RAM
networks maintain a hidden state that is updated asynchronously and can be
queried at any time to generate a prediction. We apply this novel architecture
to monocular depth estimation with events and frames where we show an
improvement over state-of-the-art methods by up to 30% in terms of mean
absolute depth error. To enable further research on multimodal learning with
events, we release EventScape, a new dataset with events, intensity frames,
semantic labels, and depth maps recorded in the CARLA simulator.
- Abstract(参考訳): イベントカメラは、非同期な"イベント"のストリームとしてピクセルごとの明るさ変化を報告する新しい視覚センサーである。
標準のカメラに比べて、高時間分解能、高ダイナミックレンジ、動きのぼかしがないため、大きな利点がある。
しかし、イベントは視覚信号の異なるコンポーネントのみを測定するため、シーンコンテキストをエンコードする能力が制限される。
対照的に、標準的なカメラは絶対強度のフレームを測定し、シーンのよりリッチな表現を捉える。
両方のセンサーは相補的である。
しかし、イベントの非同期性のために、同期画像と組み合わせることは、特に学習ベースの方法では難しいままです。
これは、従来のリカレントニューラルネットワーク(RNN)が追加のセンサーからの非同期および不規則なデータ用に設計されていないためです。
この課題を解決するため、従来のRNNを一般化し、複数のセンサからの非同期および不規則なデータを処理できるRecurrent Asynchronous Multimodal(RAM)ネットワークを導入しました。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
この新しいアーキテクチャをイベントやフレームによる単眼深度推定に適用し、平均絶対深度誤差において最先端の手法よりも最大30%向上したことを示す。
イベントを用いたマルチモーダル学習のさらなる研究を可能にするために、イベントスケープ、インテンシティフレーム、セマンティックラベル、深さマップをcarlaシミュレータに記録した新しいデータセットをリリースする。
関連論文リスト
- BlinkTrack: Feature Tracking over 100 FPS via Events and Images [50.98675227695814]
本稿では,RGB画像とイベントデータを統合した新しいフレームワークであるBlinkTrackを提案する。
本手法は,従来のカルマンフィルタを学習ベースのフレームワークに拡張し,イベントおよびイメージの分岐において微分可能なカルマンフィルタを利用する。
実験の結果、BlinkTrackは既存のイベントベースの手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-09-26T15:54:18Z) - Revisiting Event-based Video Frame Interpolation [49.27404719898305]
ダイナミックビジョンセンサーやイベントカメラは、ビデオフレームに豊富な補完情報を提供する。
イベントからの光の流れを推定することは、RGB情報より間違いなく困難である。
イベントベースの中間フレーム合成を複数の単純化段階において漸進的に行う分割・対数戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T06:51:07Z) - Deformable Convolutions and LSTM-based Flexible Event Frame Fusion
Network for Motion Deblurring [7.187030024676791]
イベントカメラは、非同期データシーケンスを生成するという点で、従来のRGBカメラとは異なる。
RGBカメラは固定レートですべてのフレームをキャプチャするが、イベントカメラはシーンの変化のみをキャプチャし、スパースと非同期のデータ出力をもたらす。
最近のCNNベースのデブロアリングソリューションは、イベントデータの蓄積に基づいて、複数の2次元イベントフレームを生成する。
特に、照明条件や現場における動きの速い物体の存在といった要因によって露光時間が異なるシナリオでは特に有用である。
論文 参考訳(メタデータ) (2023-06-01T15:57:12Z) - Optical flow estimation from event-based cameras and spiking neural
networks [0.4899818550820575]
イベントベースセンサーはスパイキングニューラルネットワーク(SNN)に最適である
教師付きトレーニング後,高密度光フロー推定が可能なU-NetライクなSNNを提案する。
分離可能な畳み込みにより、我々は、合理的に正確な光フロー推定が得られる光モデルを開発することができた。
論文 参考訳(メタデータ) (2023-02-13T16:17:54Z) - Asynchronous Optimisation for Event-based Visual Odometry [53.59879499700895]
イベントカメラは、低レイテンシと高ダイナミックレンジのために、ロボット知覚の新しい可能性を開く。
イベントベースビジュアル・オドメトリー(VO)に焦点をあてる
動作最適化のバックエンドとして非同期構造を提案する。
論文 参考訳(メタデータ) (2022-03-02T11:28:47Z) - Fusion-FlowNet: Energy-Efficient Optical Flow Estimation using Sensor
Fusion and Deep Fused Spiking-Analog Network Architectures [7.565038387344594]
本稿では,フレームベースとイベントベースの両方のセンサを用いたエネルギー効率の高い光フロー推定のためのセンサ融合フレームワークを提案する。
我々のネットワークは、高価なビデオアノテーションを避けるために教師なし学習を用いてエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-03-19T02:03:33Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。