論文の概要: A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2404.17335v3
- Date: Mon, 24 Feb 2025 10:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:49:50.646186
- Title: A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation
- Title(参考訳): クロスモーダル知識蒸留によるイベントカメラからの深度推定のための新しいスパイクトランスネットワーク
- Authors: Xin Zhang, Liangxiu Han, Tam Sobeih, Lianghao Han, Darren Dancey,
- Abstract要約: イベントカメラは、非同期バイナリスパイクとして光強度の時間変化を符号化する。
従来の画像に基づく深度推定手法には、従来のスパイク出力とラベル付きデータセットの不足が大きな課題となっている。
本研究では, スパイキングデータのユニークな特性を利用して, 深度推定のための新しいエネルギー効率の高いスパイク駆動型トランスフォーマーネットワークを提案する。
- 参考スコア(独自算出の注目度): 3.355813093377501
- License:
- Abstract: Depth estimation is a critical task in computer vision, with applications in autonomous navigation, robotics, and augmented reality. Event cameras, which encode temporal changes in light intensity as asynchronous binary spikes, offer unique advantages such as low latency, high dynamic range, and energy efficiency. However, their unconventional spiking output and the scarcity of labelled datasets pose significant challenges to traditional image-based depth estimation methods. To address these challenges, we propose a novel energy-efficient Spike-Driven Transformer Network (SDT) for depth estimation, leveraging the unique properties of spiking data. The proposed SDT introduces three key innovations: (1) a purely spike-driven transformer architecture that incorporates spike-based attention and residual mechanisms, enabling precise depth estimation with minimal energy consumption; (2) a fusion depth estimation head that combines multi-stage features for fine-grained depth prediction while ensuring computational efficiency; and (3) a cross-modality knowledge distillation framework that utilises a pre-trained vision foundation model (DINOv2) to enhance the training of the spiking network despite limited data availability.This work represents the first exploration of transformer-based spiking neural networks for depth estimation, providing a significant step forward in energy-efficient neuromorphic computing for real-world vision applications.
- Abstract(参考訳): 深さ推定は、自律ナビゲーション、ロボティクス、拡張現実など、コンピュータビジョンにおいて重要なタスクである。
非同期バイナリスパイクとして光強度の時間的変化を符号化するイベントカメラは、低レイテンシ、高ダイナミックレンジ、エネルギー効率などのユニークな利点を提供する。
しかし、従来の画像に基づく深度推定手法には、従来のスパイク出力とラベル付きデータセットの不足が大きな課題となっている。
これらの課題に対処するために、スパイクデータのユニークな特性を利用して、深度推定のためのエネルギー効率の良いスパイク駆動型トランスフォーマーネットワーク(SDT)を提案する。
提案したSDTは,(1)スパイクに基づく注意と残留機構を組み込んだ純粋スパイク駆動型トランスフォーマーアーキテクチャ,(2)エネルギー消費を最小化するための正確な深さ推定を可能にする融合深度推定ヘッド,(2)計算効率を確保しつつ細粒度深度予測のための多段階特徴を組み合わせた融合深度推定ヘッド,(3)事前学習されたビジョン基盤モデル(DINOv2)を活用して深度推定のためのトランスフォーマーベースのスパイクニューラルネットワークの最初の探索であり,実世界のビジョンアプリケーションのためのエネルギー効率の高いニューロモルフィックコンピューティングにおける重要な一歩である。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - SDformerFlow: Spatiotemporal swin spikeformer for event-based optical flow estimation [10.696635172502141]
イベントカメラは、光強度の変化をキャプチャする非同期でスパースなイベントストリームを生成する。
スパイキングニューラルネットワーク(SNN)も同様の非同期特性とスパース特性を共有しており、イベントカメラに適している。
本稿では,STTFlowNetとSDFlowformerという,高速かつ堅牢なイベントカメラ用光フロー推定手法を提案する。
論文 参考訳(メタデータ) (2024-09-06T07:48:18Z) - Event-Stream Super Resolution using Sigma-Delta Neural Network [0.10923877073891444]
イベントカメラは、それらが収集するデータの低解像度で疎結合で非同期な性質のため、ユニークな課題を示す。
現在のイベント超解像アルゴリズムは、イベントカメラによって生成された異なるデータ構造に対して完全に最適化されていない。
バイナリスパイクをSigma Delta Neural Networks(SDNNs)と統合する手法を提案する
論文 参考訳(メタデータ) (2024-08-13T15:25:18Z) - Training Robust Spiking Neural Networks with ViewPoint Transform and
SpatioTemporal Stretching [4.736525128377909]
本稿では,新しいデータ拡張手法であるViewPoint Transform and Spatio Stretching(VPT-STS)を提案する。
時間領域の回転中心と角度を変換し、異なる視点からサンプルを生成することにより、スパイクニューラルネットワークの堅牢性を向上させる。
有意なニューロモルフィックデータセットの実験により、VPT-STSは多点表現に広く有効であり、純粋な空間幾何学的変換を著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-03-14T03:09:56Z) - Optical flow estimation from event-based cameras and spiking neural
networks [0.4899818550820575]
イベントベースセンサーはスパイキングニューラルネットワーク(SNN)に最適である
教師付きトレーニング後,高密度光フロー推定が可能なU-NetライクなSNNを提案する。
分離可能な畳み込みにより、我々は、合理的に正確な光フロー推定が得られる光モデルを開発することができた。
論文 参考訳(メタデータ) (2023-02-13T16:17:54Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z) - Spike-FlowNet: Event-based Optical Flow Estimation with Energy-Efficient
Hybrid Neural Networks [40.44712305614071]
本稿では,SNNとANNを統合したディープハイブリッドニューラルネットワークアーキテクチャであるSpike-FlowNetを提案する。
このネットワークは、MVSEC(Multi-Vehicle Stereo Event Camera)データセット上で、セルフ教師付き学習でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2020-03-14T20:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。