論文の概要: Self-supervised Event-based Monocular Depth Estimation using Cross-modal
Consistency
- arxiv url: http://arxiv.org/abs/2401.07218v1
- Date: Sun, 14 Jan 2024 07:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:23:38.673444
- Title: Self-supervised Event-based Monocular Depth Estimation using Cross-modal
Consistency
- Title(参考訳): クロスモーダル一貫性を用いた自己教師付きイベントベース単眼深度推定
- Authors: Junyu Zhu, Lina Liu, Bofeng Jiang, Feng Wen, Hongbo Zhang, Wanlong Li,
Yong Liu
- Abstract要約: EMoDepth という自己教師型イベントベース単眼深度推定フレームワークを提案する。
EMoDepthは、ピクセル座標内のイベントに整合した強度フレームからのクロスモーダル一貫性を使用して、トレーニングプロセスを制約する。
推論では、単分子深度予測にはイベントのみを使用する。
- 参考スコア(独自算出の注目度): 18.288912105820167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An event camera is a novel vision sensor that can capture per-pixel
brightness changes and output a stream of asynchronous ``events''. It has
advantages over conventional cameras in those scenes with high-speed motions
and challenging lighting conditions because of the high temporal resolution,
high dynamic range, low bandwidth, low power consumption, and no motion blur.
Therefore, several supervised monocular depth estimation from events is
proposed to address scenes difficult for conventional cameras. However, depth
annotation is costly and time-consuming. In this paper, to lower the annotation
cost, we propose a self-supervised event-based monocular depth estimation
framework named EMoDepth. EMoDepth constrains the training process using the
cross-modal consistency from intensity frames that are aligned with events in
the pixel coordinate. Moreover, in inference, only events are used for
monocular depth prediction. Additionally, we design a multi-scale
skip-connection architecture to effectively fuse features for depth estimation
while maintaining high inference speed. Experiments on MVSEC and DSEC datasets
demonstrate that our contributions are effective and that the accuracy can
outperform existing supervised event-based and unsupervised frame-based
methods.
- Abstract(参考訳): イベントカメラは、ピクセルごとの明るさ変化をキャプチャし、非同期の ``events'' ストリームを出力できる、新しい視覚センサである。
時間分解能が高く、ダイナミックレンジが高く、帯域幅が低く、消費電力が低く、動きがぼやけないため、高速モーションや照明条件に挑戦するシーンでは従来のカメラより優れている。
そこで,従来のカメラでは難しいシーンに対処するために,イベントからの教師付き単眼深度推定がいくつか提案されている。
しかし、深さアノテーションはコストと時間を要する。
本稿では,アノテーションのコストを下げるために,EMoDepthという自己教師型イベントベース単分子深度推定フレームワークを提案する。
EMoDepthは、ピクセル座標内のイベントに整合した強度フレームからのクロスモーダル一貫性を使用して、トレーニングプロセスを制約する。
さらに、推論では、単眼深度予測にはイベントのみを使用する。
さらに,高い推論速度を維持しつつ,深度推定のための機能を効果的に融合するマルチスケールなスキップ接続アーキテクチャを設計した。
MVSECとDSECデータセットの実験では、私たちのコントリビューションが効果的であり、既存の教師付きイベントベースおよび教師なしフレームベースメソッドよりも精度が高いことが示されている。
関連論文リスト
- Learning Monocular Depth from Focus with Event Focal Stack [6.200121342586474]
イベントフォカルスタックからスパース深さを推定するEDFFネットワークを提案する。
イベントボクセルグリッドを用いて、強度変化情報とプロジェクトイベント時間表面を深度領域にエンコードする。
上記の情報を融合させるために、Focal-Distance-Guided Cross-Modal Attention Moduleが提示される。
論文 参考訳(メタデータ) (2024-05-11T07:54:49Z) - FEDORA: Flying Event Dataset fOr Reactive behAvior [9.470870778715689]
イベントベースのセンサーは、高速な動きを捉えるための標準フレームベースのカメラに代わる低レイテンシと低エネルギーの代替として登場した。
Flying Eventデータセット fOr Reactive behAviour (FEDORA) - 知覚タスクのための完全に合成されたデータセット。
論文 参考訳(メタデータ) (2023-05-22T22:59:05Z) - PL-EVIO: Robust Monocular Event-based Visual Inertial Odometry with
Point and Line Features [3.6355269783970394]
イベントカメラは、フレームレートが固定された強度画像の代わりにピクセルレベルの照明変化をキャプチャするモーションアクティベートセンサーである。
本稿では,ロバストで高精度でリアルタイムな単眼イベントベース視覚慣性オドメトリー(VIO)法を提案する。
論文 参考訳(メタデータ) (2022-09-25T06:14:12Z) - Uncertainty Guided Depth Fusion for Spike Camera [49.41822923588663]
スパイクカメラのための単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。
我々のフレームワークは、ステレオスパイク深さ推定がより近い範囲でより良い結果をもたらすという事実に動機づけられている。
従来のカメラ深度推定よりもスパイク深度推定の利点を示すため、我々はCitySpike20Kというスパイク深度データセットに貢献する。
論文 参考訳(メタデータ) (2022-08-26T13:04:01Z) - Globally-Optimal Event Camera Motion Estimation [30.79931004393174]
イベントカメラは、HDR条件でよく機能し、時間分解能の高いバイオインスパイアされたセンサーである。
イベントカメラは、非同期ピクセルレベルの変更を測定し、高度に識別されたフォーマットでそれらを返す。
論文 参考訳(メタデータ) (2022-03-08T08:24:22Z) - Asynchronous Optimisation for Event-based Visual Odometry [53.59879499700895]
イベントカメラは、低レイテンシと高ダイナミックレンジのために、ロボット知覚の新しい可能性を開く。
イベントベースビジュアル・オドメトリー(VO)に焦点をあてる
動作最適化のバックエンドとして非同期構造を提案する。
論文 参考訳(メタデータ) (2022-03-02T11:28:47Z) - ESL: Event-based Structured Light [62.77144631509817]
イベントカメラはバイオインスパイアされたセンサーであり、標準的なカメラよりも大きな利点がある。
本稿では,イベントカメラを用いた新しい構造化光システムを提案し,高精度かつ高速な深度センシングの課題に対処する。
論文 参考訳(メタデータ) (2021-11-30T15:47:39Z) - Event Guided Depth Sensing [50.997474285910734]
バイオインスパイアされたイベントカメラ駆動深度推定アルゴリズムを提案する。
提案手法では,イベントカメラが検出したシーン活動に応じて,関心領域を高密度に照明する。
シミュレーションされた自律運転シーケンスと実際の屋内環境におけるアプローチの実現可能性を示す。
論文 参考訳(メタデータ) (2021-10-20T11:41:11Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。