論文の概要: 3D-FlowNet: Event-based optical flow estimation with 3D representation
- arxiv url: http://arxiv.org/abs/2201.12265v1
- Date: Fri, 28 Jan 2022 17:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 14:38:04.011852
- Title: 3D-FlowNet: Event-based optical flow estimation with 3D representation
- Title(参考訳): 3D-FlowNet:3次元表現を用いたイベントベース光フロー推定
- Authors: Haixin Sun, Minh-Quan Dao, Vincent Fremont
- Abstract要約: イベントベースのカメラは、高速モーション検出などの重要なタスクのためにフレームベースのカメラ制限を克服することができる。
ディープニューラルネットワークは、非同期で離散的なイベントデータを扱うようには適していない。
本稿では,3次元入力表現を処理し,光フロー推定を出力できる新しいネットワークアーキテクチャである3D-FlowNetを提案する。
- 参考スコア(独自算出の注目度): 2.062593640149623
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Event-based cameras can overpass frame-based cameras limitations for
important tasks such as high-speed motion detection during self-driving cars
navigation in low illumination conditions. The event cameras' high temporal
resolution and high dynamic range, allow them to work in fast motion and
extreme light scenarios. However, conventional computer vision methods, such as
Deep Neural Networks, are not well adapted to work with event data as they are
asynchronous and discrete. Moreover, the traditional 2D-encoding representation
methods for event data, sacrifice the time resolution. In this paper, we first
improve the 2D-encoding representation by expanding it into three dimensions to
better preserve the temporal distribution of the events. We then propose
3D-FlowNet, a novel network architecture that can process the 3D input
representation and output optical flow estimations according to the new
encoding methods. A self-supervised training strategy is adopted to compensate
the lack of labeled datasets for the event-based camera. Finally, the proposed
network is trained and evaluated with the Multi-Vehicle Stereo Event Camera
(MVSEC) dataset. The results show that our 3D-FlowNet outperforms
state-of-the-art approaches with less training epoch (30 compared to 100 of
Spike-FlowNet).
- Abstract(参考訳): イベントベースのカメラは、低い照明条件下での自動運転車のナビゲーション中の高速モーション検出などの重要なタスクのために、フレームベースのカメラの制限を克服することができる。
イベントカメラの高時間分解能と高ダイナミックレンジにより、速い動きと極端な光のシナリオで作業することができる。
しかし、Deep Neural Networksのような従来のコンピュータビジョン手法は、非同期で離散的なイベントデータを扱うには適していない。
さらに、イベントデータに対する従来の2Dエンコーディング表現手法は、時間分解能を犠牲にする。
本稿では,まず,事象の時間分布をよりよく保存するために,それを3次元に拡張して2次元符号化表現を改善する。
次に,3次元入力表現を処理し,新たな符号化手法に従って光フロー推定を出力するネットワークアーキテクチャである3D-FlowNetを提案する。
イベントベースカメラのラベル付きデータセットの欠如を補うために、セルフ教師付きトレーニング戦略が採用されている。
最後に,提案ネットワークをmvsec(multi-vehicle stereo event camera)データセットを用いてトレーニングし,評価する。
その結果、私たちの3D-FlowNetは、トレーニングエポックの少ない最先端のアプローチ(Spike-FlowNetの100に対して30)よりも優れています。
関連論文リスト
- Rethinking Event-based Human Pose Estimation with 3D Event
Representations [26.592295349210787]
イベントカメラは、困難なコンテキストをナビゲートするための堅牢なソリューションを提供する。
我々は、Rasterized Event Point CloudとDecoupled Event Voxelの2つの3Dイベント表現を紹介します。
EV-3DPW実験により,従来のRGB画像やイベントフレーム技術と比較して,提案手法のロバスト性を示した。
論文 参考訳(メタデータ) (2023-11-08T10:45:09Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Optical flow estimation from event-based cameras and spiking neural
networks [0.4899818550820575]
イベントベースセンサーはスパイキングニューラルネットワーク(SNN)に最適である
教師付きトレーニング後,高密度光フロー推定が可能なU-NetライクなSNNを提案する。
分離可能な畳み込みにより、我々は、合理的に正確な光フロー推定が得られる光モデルを開発することができた。
論文 参考訳(メタデータ) (2023-02-13T16:17:54Z) - EventNeRF: Neural Radiance Fields from a Single Colour Event Camera [81.19234142730326]
本稿では, 単色イベントストリームを入力として, 3次元一貫性, 密度, 新規なビュー合成法を提案する。
その中核は、カラーイベントチャンネルのオリジナルの解像度を維持しながら、イベントから完全に自己教師された方法で訓練された神経放射場である。
提案手法をいくつかの難解な合成シーンと実シーンで定性的・数値的に評価し,より密集し,より視覚的に魅力的であることを示す。
論文 参考訳(メタデータ) (2022-06-23T17:59:53Z) - MEFNet: Multi-scale Event Fusion Network for Motion Deblurring [62.60878284671317]
従来のフレームベースのカメラは、長時間露光のために必然的に動きがぼやけている。
バイオインスパイアされたカメラの一種として、イベントカメラは、高時間分解能で非同期な方法で強度変化を記録する。
本稿では,イベントベースの画像劣化問題を再考し,これをエンドツーエンドの2段階画像復元ネットワークに展開する。
論文 参考訳(メタデータ) (2021-11-30T23:18:35Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Event-based Stereo Visual Odometry [42.77238738150496]
ステレオ・イベント・ベースのカメラ・リグが取得したデータから視覚計測の問題に対する解決策を提案する。
我々は,シンプルかつ効率的な表現を用いて,ステレオイベントベースのデータの時間的一貫性を最大化する。
論文 参考訳(メタデータ) (2020-07-30T15:53:28Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。