論文の概要: Spatio-Temporal Recurrent Networks for Event-Based Optical Flow
Estimation
- arxiv url: http://arxiv.org/abs/2109.04871v1
- Date: Fri, 10 Sep 2021 13:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:27:22.566826
- Title: Spatio-Temporal Recurrent Networks for Event-Based Optical Flow
Estimation
- Title(参考訳): イベントベース光フロー推定のための時空間リカレントネットワーク
- Authors: Ziluo Ding, Rui Zhao, Jiyuan Zhang, Tianxiao Gao, Ruiqin Xiong,
Zhaofei Yu, Tiejun Huang
- Abstract要約: 本稿では,イベントベース光フロー推定のためのニューラルネットアーキテクチャを提案する。
このネットワークは、Multi-Vehicle Stereo Event Cameraデータセット上で、セルフ教師付き学習でエンドツーエンドにトレーニングされている。
既存の最先端の手法を大きなマージンで上回る結果が得られた。
- 参考スコア(独自算出の注目度): 47.984368369734995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Event camera has offered promising alternative for visual perception,
especially in high speed and high dynamic range scenes. Recently, many deep
learning methods have shown great success in providing model-free solutions to
many event-based problems, such as optical flow estimation. However, existing
deep learning methods did not address the importance of temporal information
well from the perspective of architecture design and cannot effectively extract
spatio-temporal features. Another line of research that utilizes Spiking Neural
Network suffers from training issues for deeper architecture. To address these
points, a novel input representation is proposed that captures the events
temporal distribution for signal enhancement. Moreover, we introduce a
spatio-temporal recurrent encoding-decoding neural network architecture for
event-based optical flow estimation, which utilizes Convolutional Gated
Recurrent Units to extract feature maps from a series of event images. Besides,
our architecture allows some traditional frame-based core modules, such as
correlation layer and iterative residual refine scheme, to be incorporated. The
network is end-to-end trained with self-supervised learning on the
Multi-Vehicle Stereo Event Camera dataset. We have shown that it outperforms
all the existing state-of-the-art methods by a large margin.
- Abstract(参考訳): イベントカメラは、特に高速でダイナミックレンジのシーンにおいて、視覚的知覚に有望な代替手段を提供する。
近年,多くのディープラーニング手法が,光学的フロー推定などのイベントベース問題に対して,モデルフリーのソリューションを提供することで大きな成功を収めている。
しかし,既存のディープラーニング手法では,アーキテクチャ設計の観点から時間情報の重要さに対処できず,時空間的特徴を効果的に抽出することができない。
スパイクニューラルネットワークを利用する別の研究は、より深いアーキテクチャのためのトレーニングの問題に苦しむ。
これらの点に対処するため、信号強調のための事象時間分布をキャプチャする新しい入力表現を提案する。
さらに、コンボリューショナルGated Recurrent Unitsを用いて一連のイベント画像から特徴マップを抽出するイベントベース光フロー推定のための時空間繰り返し符号化符号化ニューラルネットワークアーキテクチャを提案する。
さらに,我々のアーキテクチャでは,相関層や反復的残留精錬スキームなど,従来のフレームベースのコアモジュールを組み込むことが可能である。
ネットワークは、マルチ車両ステレオイベントカメラデータセット上で自己教師付き学習によってエンドツーエンドでトレーニングされる。
既存の最先端のメソッドを大きなマージンで上回っていることが分かっています。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Faster ISNet for Background Bias Mitigation on Deep Neural Networks [0.4915744683251149]
画像背景のバイアスや刺激的な相関はニューラルネットワークに影響を与え、ショートカット学習を引き起こし、現実世界のデータへの一般化を妨げる。
本稿では,この数からトレーニング時間が独立したアーキテクチャを提案する。
我々は、合成背景バイアスと、一般的に背景バイアスを示すアプリケーションである胸部X線における新型コロナウイルス検出を用いて、提案したアーキテクチャに挑戦する。
論文 参考訳(メタデータ) (2024-01-16T14:49:26Z) - Neuromorphic Optical Flow and Real-time Implementation with Event
Cameras [47.11134388304464]
イベントベースのビジョンとスパイクニューラルネットワークの最新の開発の上に構築しています。
我々は、最先端の自己監督型光フロー精度を向上させる新しいネットワークアーキテクチャを提案する。
約2桁の複雑さで高速な光流予測を行う。
論文 参考訳(メタデータ) (2023-04-14T14:03:35Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation [20.196945571479002]
本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
論文 参考訳(メタデータ) (2020-10-20T04:48:36Z) - Back to Event Basics: Self-Supervised Learning of Image Reconstruction
for Event Cameras via Photometric Constancy [0.0]
イベントカメラは、非同期な方法で、低レイテンシで高時間分解能の輝度インクリメントをサンプリングする新しい視覚センサである。
本稿では,光学的フロー推定のための新しい軽量ニューラルネットワークを提案する。
複数のデータセットにまたがる結果から、提案した自己教師型アプローチのパフォーマンスは最先端技術と一致していることがわかる。
論文 参考訳(メタデータ) (2020-09-17T13:30:05Z) - NAS-DIP: Learning Deep Image Prior with Neural Architecture Search [65.79109790446257]
近年の研究では、深部畳み込みニューラルネットワークの構造が、以前に構造化された画像として利用できることが示されている。
我々は,より強い画像の先行を捉えるニューラルネットワークの探索を提案する。
既存のニューラルネットワーク探索アルゴリズムを利用して,改良されたネットワークを探索する。
論文 参考訳(メタデータ) (2020-08-26T17:59:36Z) - Cascaded Deep Video Deblurring Using Temporal Sharpness Prior [88.98348546566675]
提案アルゴリズムは主に,中間潜水フレームと潜水フレームの復元ステップから光フローを推定する。
まず、中間潜伏フレームから光フローを推定し、推定した光フローに基づいて潜伏フレームを復元する深部CNNモデルを開発する。
ビデオデブロアリングのドメイン知識を探索することで、深層CNNモデルをよりコンパクトで効率的なものにすることができることを示す。
論文 参考訳(メタデータ) (2020-04-06T09:13:49Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。