論文の概要: SDformerFlow: Spatiotemporal swin spikeformer for event-based optical flow estimation
- arxiv url: http://arxiv.org/abs/2409.04082v1
- Date: Fri, 6 Sep 2024 07:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:36:07.789976
- Title: SDformerFlow: Spatiotemporal swin spikeformer for event-based optical flow estimation
- Title(参考訳): SDformerFlow:イベントベース光フロー推定のための時空間スウィンスパイクフォーマ
- Authors: Yi Tian, Juan Andrade-Cetto,
- Abstract要約: イベントカメラは、光強度の変化をキャプチャする非同期でスパースなイベントストリームを生成する。
スパイキングニューラルネットワーク(SNN)も同様の非同期特性とスパース特性を共有しており、イベントカメラに適している。
本稿では,STTFlowNetとSDFlowformerという,高速かつ堅牢なイベントカメラ用光フロー推定手法を提案する。
- 参考スコア(独自算出の注目度): 10.696635172502141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras generate asynchronous and sparse event streams capturing changes in light intensity. They offer significant advantages over conventional frame-based cameras, such as a higher dynamic range and an extremely faster data rate, making them particularly useful in scenarios involving fast motion or challenging lighting conditions. Spiking neural networks (SNNs) share similar asynchronous and sparse characteristics and are well-suited for processing data from event cameras. Inspired by the potential of transformers and spike-driven transformers (spikeformers) in other computer vision tasks, we propose two solutions for fast and robust optical flow estimation for event cameras: STTFlowNet and SDformerFlow. STTFlowNet adopts a U-shaped artificial neural network (ANN) architecture with spatiotemporal shifted window self-attention (swin) transformer encoders, while SDformerFlow presents its fully spiking counterpart, incorporating swin spikeformer encoders. Furthermore, we present two variants of the spiking version with different neuron models. Our work is the first to make use of spikeformers for dense optical flow estimation. We conduct end-to-end training for all models using supervised learning. Our results yield state-of-the-art performance among SNN-based event optical flow methods on both the DSEC and MVSEC datasets, and show significant reduction in power consumption compared to the equivalent ANNs.
- Abstract(参考訳): イベントカメラは、光強度の変化をキャプチャする非同期でスパースなイベントストリームを生成する。
従来のフレームベースのカメラに比べて、よりダイナミックな範囲と極めて高速なデータレートといった大きな利点があり、高速な動きや困難な照明条件を含むシナリオで特に有用である。
スパイキングニューラルネットワーク(SNN)も同様の非同期特性とスパース特性を共有し、イベントカメラのデータ処理に適している。
本稿では,他のコンピュータビジョンタスクにおける変圧器やスパイク駆動型変圧器(スパイクフォーマ)の可能性に触発されて,イベントカメラの高速かつ堅牢な光フロー推定法として,STTFlowNetとSDformerFlowを提案する。
STTFlowNetは、時空間シフトしたウィンドウ自己アテンション(スウィン)トランスフォーマーエンコーダを備えたU字型人工知能ニューラルネットワーク(ANN)アーキテクチャを採用しており、SDformerFlowはスウィンスパイクフォーマーエンコーダを組み込んだ完全なスパイクを行う。
さらに、異なるニューロンモデルを持つスパイキングバージョンの2つの変種を提示する。
我々の研究は、高密度光流量推定にスパイクフォーマを用いた最初のものである。
教師付き学習を用いて,すべてのモデルのエンドツーエンドトレーニングを行う。
以上の結果から,DSECおよびMVSECデータセット上でのSNNを用いたイベント光フロー法の性能が向上し,同等のANNと比較して消費電力が大幅に減少した。
関連論文リスト
- A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation [3.355813093377501]
イベントカメラは従来のデジタルカメラとは異なる動作をし、データを継続的にキャプチャし、時間、位置、光強度を符号化するバイナリスパイクを生成する。
これは、イベントカメラに適した革新的でスパイク対応のアルゴリズムの開発を必要とする。
スパイクカメラデータから深度推定を行うために,純粋にスパイク駆動のスパイク変圧器ネットワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T11:32:53Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - Best of Both Worlds: Hybrid SNN-ANN Architecture for Event-based Optical Flow Estimation [12.611797572621398]
非同期イベント駆動型計算でニューラルネットワーク(SNN)をスパイクすることは、イベントストリームから機能を抽出する大きな可能性を秘めている。
本稿では,両者の強みを組み合わせた新しいSNN-ANNハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-05T15:26:02Z) - Neuromorphic Optical Flow and Real-time Implementation with Event
Cameras [47.11134388304464]
イベントベースのビジョンとスパイクニューラルネットワークの最新の開発の上に構築しています。
我々は、最先端の自己監督型光フロー精度を向上させる新しいネットワークアーキテクチャを提案する。
約2桁の複雑さで高速な光流予測を行う。
論文 参考訳(メタデータ) (2023-04-14T14:03:35Z) - Optical flow estimation from event-based cameras and spiking neural
networks [0.4899818550820575]
イベントベースセンサーはスパイキングニューラルネットワーク(SNN)に最適である
教師付きトレーニング後,高密度光フロー推定が可能なU-NetライクなSNNを提案する。
分離可能な畳み込みにより、我々は、合理的に正確な光フロー推定が得られる光モデルを開発することができた。
論文 参考訳(メタデータ) (2023-02-13T16:17:54Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - SCFlow: Optical Flow Estimation for Spiking Camera [50.770803466875364]
スパイキングカメラは、特に高速シーンのモーション推定において、現実の応用において大きな可能性を秘めている。
光フロー推定は画像ベースおよびイベントベースの視覚において顕著な成功を収めているが、既存の手法はスパイクカメラからのスパイクストリームに直接適用することはできない。
本稿では、スパイキングカメラのための光フロー推定のための新しいディープラーニングパイプラインSCFlowについて述べる。
論文 参考訳(メタデータ) (2021-10-08T06:16:45Z) - Fusion-FlowNet: Energy-Efficient Optical Flow Estimation using Sensor
Fusion and Deep Fused Spiking-Analog Network Architectures [7.565038387344594]
本稿では,フレームベースとイベントベースの両方のセンサを用いたエネルギー効率の高い光フロー推定のためのセンサ融合フレームワークを提案する。
我々のネットワークは、高価なビデオアノテーションを避けるために教師なし学習を用いてエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-03-19T02:03:33Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Spike-FlowNet: Event-based Optical Flow Estimation with Energy-Efficient
Hybrid Neural Networks [40.44712305614071]
本稿では,SNNとANNを統合したディープハイブリッドニューラルネットワークアーキテクチャであるSpike-FlowNetを提案する。
このネットワークは、MVSEC(Multi-Vehicle Stereo Event Camera)データセット上で、セルフ教師付き学習でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2020-03-14T20:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。