論文の概要: A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2404.17335v2
- Date: Wed, 1 May 2024 08:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-02 11:09:15.426318
- Title: A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation
- Title(参考訳): クロスモーダル知識蒸留によるイベントカメラからの深度推定のための新しいスパイクトランスネットワーク
- Authors: Xin Zhang, Liangxiu Han, Tam Sobeih, Lianghao Han, Darren Dancey,
- Abstract要約: イベントカメラは従来のデジタルカメラとは異なる動作をし、データを継続的にキャプチャし、時間、位置、光強度を符号化するバイナリスパイクを生成する。
これは、イベントカメラに適した革新的でスパイク対応のアルゴリズムの開発を必要とする。
スパイクカメラデータから深度推定を行うために,純粋にスパイク駆動のスパイク変圧器ネットワークを提案する。
- 参考スコア(独自算出の注目度): 3.355813093377501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth estimation is crucial for interpreting complex environments, especially in areas such as autonomous vehicle navigation and robotics. Nonetheless, obtaining accurate depth readings from event camera data remains a formidable challenge. Event cameras operate differently from traditional digital cameras, continuously capturing data and generating asynchronous binary spikes that encode time, location, and light intensity. Yet, the unique sampling mechanisms of event cameras render standard image based algorithms inadequate for processing spike data. This necessitates the development of innovative, spike-aware algorithms tailored for event cameras, a task compounded by the irregularity, continuity, noise, and spatial and temporal characteristics inherent in spiking data.Harnessing the strong generalization capabilities of transformer neural networks for spatiotemporal data, we propose a purely spike-driven spike transformer network for depth estimation from spiking camera data. To address performance limitations with Spiking Neural Networks (SNN), we introduce a novel single-stage cross-modality knowledge transfer framework leveraging knowledge from a large vision foundational model of artificial neural networks (ANN) (DINOv2) to enhance the performance of SNNs with limited data. Our experimental results on both synthetic and real datasets show substantial improvements over existing models, with notable gains in Absolute Relative and Square Relative errors (49% and 39.77% improvements over the benchmark model Spike-T, respectively). Besides accuracy, the proposed model also demonstrates reduced power consumptions, a critical factor for practical applications.
- Abstract(参考訳): 深度推定は複雑な環境、特に自律走行航法やロボット工学のような分野の解釈に不可欠である。
それでも、イベントカメラのデータから正確な深度を読み取ることは、まだまだ難しい課題だ。
イベントカメラは従来のデジタルカメラとは異なる動作をし、データを継続的にキャプチャし、時間、位置、光強度をエンコードする非同期バイナリスパイクを生成する。
しかし、イベントカメラのユニークなサンプリングメカニズムは、スパイクデータを処理するのに標準画像ベースアルゴリズムが不十分である。
これにより, スパイキングデータに固有の不規則性, 連続性, ノイズ, 空間的および時間的特性を複合したタスクであるイベントカメラに適したスパイク対応アルゴリズムの開発が必要となり, スパイクカメラデータから深度を推定するための純粋スパイク駆動スパイクトランスフォーマネットワークを提案する。
スパイキングニューラルネットワーク(SNN)の性能制限に対処するため,我々は,人工知能ニューラルネットワーク(ANN)の大規模ビジョン基盤モデル(DINOv2)からの知識を活用して,限られたデータによるSNNの性能向上を図る,新しい単一段階のクロスモーダルな知識伝達フレームワークを導入する。
合成データセットと実データセットの両方の実験結果は、既存のモデルよりも大幅に改善され、絶対相対誤差と平方相対誤差(ベンチマークモデルSpike-Tの49%と39.77%)が顕著に向上した。
提案モデルでは, 精度に加えて, 実用上の重要な要因である消費電力の削減も示している。
関連論文リスト
- BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - SDformerFlow: Spatiotemporal swin spikeformer for event-based optical flow estimation [10.696635172502141]
イベントカメラは、光強度の変化をキャプチャする非同期でスパースなイベントストリームを生成する。
スパイキングニューラルネットワーク(SNN)も同様の非同期特性とスパース特性を共有しており、イベントカメラに適している。
本稿では,STTFlowNetとSDFlowformerという,高速かつ堅牢なイベントカメラ用光フロー推定手法を提案する。
論文 参考訳(メタデータ) (2024-09-06T07:48:18Z) - Event-Stream Super Resolution using Sigma-Delta Neural Network [0.10923877073891444]
イベントカメラは、それらが収集するデータの低解像度で疎結合で非同期な性質のため、ユニークな課題を示す。
現在のイベント超解像アルゴリズムは、イベントカメラによって生成された異なるデータ構造に対して完全に最適化されていない。
バイナリスパイクをSigma Delta Neural Networks(SDNNs)と統合する手法を提案する
論文 参考訳(メタデータ) (2024-08-13T15:25:18Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - Efficient Multi-domain Text Recognition Deep Neural Network
Parameterization with Residual Adapters [4.454976752204893]
本研究では,光学的文字認識(OCR)に適応する新しいニューラルネットワークモデルを提案する。
このモデルは、新しいドメインへの迅速な適応を実現し、計算リソースの需要を減らすためにコンパクトなサイズを維持し、高い精度を確保し、学習経験から知識を保持し、完全に再訓練することなくドメイン固有のパフォーマンス改善を可能にするように設計されている。
論文 参考訳(メタデータ) (2024-01-01T23:01:40Z) - ADU-Depth: Attention-based Distillation with Uncertainty Modeling for
Depth Estimation [11.92011909884167]
左右のイメージペアを入力として利用する教師ネットワークをトレーニングすることで,空間的手がかりを導入する。
注意適応型特徴蒸留と焦点深度適応型応答蒸留の両方をトレーニング段階で適用した。
実深度推定データセットKITTI と DrivingStereo に関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-09-26T08:12:37Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Training Robust Spiking Neural Networks with ViewPoint Transform and
SpatioTemporal Stretching [4.736525128377909]
本稿では,新しいデータ拡張手法であるViewPoint Transform and Spatio Stretching(VPT-STS)を提案する。
時間領域の回転中心と角度を変換し、異なる視点からサンプルを生成することにより、スパイクニューラルネットワークの堅牢性を向上させる。
有意なニューロモルフィックデータセットの実験により、VPT-STSは多点表現に広く有効であり、純粋な空間幾何学的変換を著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-03-14T03:09:56Z) - Optical flow estimation from event-based cameras and spiking neural
networks [0.4899818550820575]
イベントベースセンサーはスパイキングニューラルネットワーク(SNN)に最適である
教師付きトレーニング後,高密度光フロー推定が可能なU-NetライクなSNNを提案する。
分離可能な畳み込みにより、我々は、合理的に正確な光フロー推定が得られる光モデルを開発することができた。
論文 参考訳(メタデータ) (2023-02-13T16:17:54Z) - Depth Monocular Estimation with Attention-based Encoder-Decoder Network
from Single Image [7.753378095194288]
ビジョンベースのアプローチは最近多くの注目を集めており、これらの欠点を克服することができる。
本研究では,格子状アーチファクトやぼやけたエッジに悩まされている1つの単眼画像から深度マップを推定する。
我々の新しいアプローチは、最小限のオーバーヘッドで現在の画像の焦点を見つけることができ、奥行き特性の損失を避けることができる。
論文 参考訳(メタデータ) (2022-10-24T23:01:25Z) - Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。
教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。
提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-08-26T09:35:20Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - On Deep Learning Techniques to Boost Monocular Depth Estimation for
Autonomous Navigation [1.9007546108571112]
画像の深さを推定することはコンピュータビジョンの分野における根本的な逆問題である。
本稿では,新しい特徴抽出モデルと組み合わせ,軽量で高速なCNNアーキテクチャを提案する。
また,SIDE問題を解くために,単純な幾何2.5D損失関数と組み合わせて効率的な表面正規化モジュールを導入する。
論文 参考訳(メタデータ) (2020-10-13T18:37:38Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z) - Spike-FlowNet: Event-based Optical Flow Estimation with Energy-Efficient
Hybrid Neural Networks [40.44712305614071]
本稿では,SNNとANNを統合したディープハイブリッドニューラルネットワークアーキテクチャであるSpike-FlowNetを提案する。
このネットワークは、MVSEC(Multi-Vehicle Stereo Event Camera)データセット上で、セルフ教師付き学習でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2020-03-14T20:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。