論文の概要: Learning Monocular Dense Depth from Events
- arxiv url: http://arxiv.org/abs/2010.08350v2
- Date: Thu, 22 Oct 2020 08:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:30:04.791388
- Title: Learning Monocular Dense Depth from Events
- Title(参考訳): イベントから単眼深度を学習する
- Authors: Javier Hidalgo-Carri\'o, Daniel Gehrig and Davide Scaramuzza
- Abstract要約: イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 53.078665310545745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras are novel sensors that output brightness changes in the form of
a stream of asynchronous events instead of intensity frames. Compared to
conventional image sensors, they offer significant advantages: high temporal
resolution, high dynamic range, no motion blur, and much lower bandwidth.
Recently, learning-based approaches have been applied to event-based data, thus
unlocking their potential and making significant progress in a variety of
tasks, such as monocular depth prediction. Most existing approaches use
standard feed-forward architectures to generate network predictions, which do
not leverage the temporal consistency presents in the event stream. We propose
a recurrent architecture to solve this task and show significant improvement
over standard feed-forward methods. In particular, our method generates dense
depth predictions using a monocular setup, which has not been shown previously.
We pretrain our model using a new dataset containing events and depth maps
recorded in the CARLA simulator. We test our method on the Multi Vehicle Stereo
Event Camera Dataset (MVSEC). Quantitative experiments show up to 50%
improvement in average depth error with respect to previous event-based
methods.
- Abstract(参考訳): イベントカメラは、強度フレームの代わりに非同期イベントのストリームの形で輝度変化を出力する新しいセンサーである。
従来の画像センサと比較して、高時間分解能、高ダイナミックレンジ、動きのぼけがなく、帯域幅もはるかに低いという大きな利点がある。
近年、学習に基づくアプローチがイベントベースのデータに適用され、その可能性を解き放ち、単眼深度予測のような様々なタスクにおいて大きな進歩を遂げている。
既存のアプローチのほとんどは、標準的なフィードフォワードアーキテクチャを使用して、イベントストリームの時間的一貫性を生かしていないネットワーク予測を生成する。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
特に,本手法ではこれまでに示されていない単分子配置を用いて深度予測を行う。
我々は、CARLAシミュレータに記録されたイベントと深度マップを含む新しいデータセットを用いて、モデルを事前訓練する。
本手法をMVSEC(Multi Vehicle Stereo Event Camera Dataset)で検証する。
定量的実験では、過去の事象に基づく手法と比較して平均深度誤差が最大50%改善されている。
関連論文リスト
- Temporal-Mapping Photography for Event Cameras [5.344756442054121]
イベントカメラ、またはダイナミックビジョンセンサー(DVS)は「イベント」の連続ストリームとして明るさの変化を捉えます。
スパース事象を高密度フレームに忠実に変換することは、長い間不適切な問題であった。
本稿では,静的なシーンにおける静止イベントカメラを用いて,高密度画像変換を行うイベントを初めて実現した。
論文 参考訳(メタデータ) (2024-03-11T05:29:46Z) - Self-supervised Event-based Monocular Depth Estimation using Cross-modal
Consistency [18.288912105820167]
EMoDepth という自己教師型イベントベース単眼深度推定フレームワークを提案する。
EMoDepthは、ピクセル座標内のイベントに整合した強度フレームからのクロスモーダル一貫性を使用して、トレーニングプロセスを制約する。
推論では、単分子深度予測にはイベントのみを使用する。
論文 参考訳(メタデータ) (2024-01-14T07:16:52Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Secrets of Event-Based Optical Flow [13.298845944779108]
イベントカメラはシーンダイナミクスに反応し、動きを推定する利点を提供する。
コントラスト最大化フレームワークを拡張し、イベントのみから光の流れを推定する原理的手法を開発した。
本手法はMVSECベンチマークにおける教師なし手法の中で第1位であり,DSECベンチマークでは競争力がある。
論文 参考訳(メタデータ) (2022-07-20T16:40:38Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - EventHands: Real-Time Neural 3D Hand Reconstruction from an Event Stream [80.15360180192175]
単眼ビデオからの3d手ポーズ推定は、長年の課題である。
我々は1つのイベントカメラ、すなわち明るさ変化に反応する非同期視覚センサを使用して、初めてそれに対処する。
従来,単一のrgbカメラや深度カメラでは表示されなかった特徴がある。
論文 参考訳(メタデータ) (2020-12-11T16:45:34Z) - Learning to Detect Objects with a 1 Megapixel Event Camera [14.949946376335305]
イベントカメラは、高時間精度、低データレート、高ダイナミックレンジで視覚情報を符号化する。
フィールドの新規性のため、多くのビジョンタスクにおけるイベントベースのシステムの性能は、従来のフレームベースのソリューションに比べて依然として低い。
論文 参考訳(メタデータ) (2020-09-28T16:03:59Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。