論文の概要: HDI-Former: Hybrid Dynamic Interaction ANN-SNN Transformer for Object Detection Using Frames and Events
- arxiv url: http://arxiv.org/abs/2411.18658v1
- Date: Wed, 27 Nov 2024 09:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:33.880579
- Title: HDI-Former: Hybrid Dynamic Interaction ANN-SNN Transformer for Object Detection Using Frames and Events
- Title(参考訳): HDI-Former: フレームとイベントを用いたオブジェクト検出のためのハイブリッド動的インタラクションANN-SNN変換器
- Authors: Dianze Li, Jianing Li, Xu Liu, Zhaokun Zhou, Xiaopeng Fan, Yonghong Tian,
- Abstract要約: HDI-Formerは、高精度でエネルギー効率の良い物体検出のためのハイブリッド動的相互作用ANN-SNN変換器である。
まず,ANNトランスフォーマブランチ内の画像エンコーディングトークン間の相関性を強化する,セマンティック・エンハンスド・セルフアテンション機構を提案する。
次に、低消費電力のイベントストリームから時空間キューをモデル化するSpking Swin Transformerブランチを設計する。
- 参考スコア(独自算出の注目度): 44.20745133222306
- License:
- Abstract: Combining the complementary benefits of frames and events has been widely used for object detection in challenging scenarios. However, most object detection methods use two independent Artificial Neural Network (ANN) branches, limiting cross-modality information interaction across the two visual streams and encountering challenges in extracting temporal cues from event streams with low power consumption. To address these challenges, we propose HDI-Former, a Hybrid Dynamic Interaction ANN-SNN Transformer, marking the first trial to design a directly trained hybrid ANN-SNN architecture for high-accuracy and energy-efficient object detection using frames and events. Technically, we first present a novel semantic-enhanced self-attention mechanism that strengthens the correlation between image encoding tokens within the ANN Transformer branch for better performance. Then, we design a Spiking Swin Transformer branch to model temporal cues from event streams with low power consumption. Finally, we propose a bio-inspired dynamic interaction mechanism between ANN and SNN sub-networks for cross-modality information interaction. The results demonstrate that our HDI-Former outperforms eleven state-of-the-art methods and our four baselines by a large margin. Our SNN branch also shows comparable performance to the ANN with the same architecture while consuming 10.57$\times$ less energy on the DSEC-Detection dataset. Our open-source code is available in the supplementary material.
- Abstract(参考訳): フレームとイベントの相補的な利点を組み合わせることは、困難なシナリオにおけるオブジェクト検出に広く利用されている。
しかし、ほとんどのオブジェクト検出方法は、2つの独立したニューラルネットワーク(ANN)ブランチを使用しており、2つの視覚ストリーム間の相互モダリティ情報相互作用を制限し、低消費電力のイベントストリームから時間的手がかりを抽出する際の課題に直面している。
これらの課題に対処するため,HDI-Formerを提案する。HDI-SNN Transformerは,フレームとイベントを用いた高精度かつエネルギー効率の高い物体検出のための,直接訓練されたハイブリッドANN-SNNアーキテクチャを設計する最初の試みである。
技術的には,ANNトランスフォーマブランチ内の画像エンコーディングトークン間の相関性を向上し,より優れた性能を実現するためのセマンティック・エンハンスド・セルフアテンション機構を最初に提案する。
次に、低消費電力のイベントストリームから時空間キューをモデル化するSpking Swin Transformerブランチを設計する。
最後に,ANNとSNNサブネットワーク間のバイオインスパイアされた動的相互作用機構を提案する。
その結果、HDI-Formerは11の最先端手法と4つのベースラインを大きなマージンで上回ります。
我々のSNNブランチでは、同じアーキテクチャのANNと同等のパフォーマンスを示し、DSEC-Detectionデータセットで10.57$\times$少ないエネルギーを消費しています。
私たちのオープンソースコードは補足資料で利用可能です。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - A Hybrid SNN-ANN Network for Event-based Object Detection with Spatial and Temporal Attention [2.5075774828443467]
イベントカメラは、時間分解能が高く、動きのぼやけが少ないダイナミックレンジを提供し、オブジェクト検出タスクを約束する。
Spiking Neural Networks(SNN)はイベントベースの知覚データに自然に一致するが、Artificial Neural Networks(ANN)はより安定したトレーニングダイナミクスを表示する傾向がある。
イベントカメラを用いたオブジェクト検出のための,最初のハイブリッドアテンションベースのSNN-ANNバックボーンを提案する。
論文 参考訳(メタデータ) (2024-03-15T10:28:31Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Best of Both Worlds: Hybrid SNN-ANN Architecture for Event-based Optical Flow Estimation [12.611797572621398]
非同期イベント駆動型計算でニューラルネットワーク(SNN)をスパイクすることは、イベントストリームから機能を抽出する大きな可能性を秘めている。
本稿では,両者の強みを組み合わせた新しいSNN-ANNハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-05T15:26:02Z) - Spiking-Fer: Spiking Neural Network for Facial Expression Recognition
With Event Cameras [2.9398911304923447]
Spiking-FER」は深層畳み込みSNNモデルであり、類似したニューラルネットワーク(ANN)と比較する。
実験の結果,提案手法はANNアーキテクチャに匹敵する性能を達成し,最大65.39倍のエネルギーを消費することがわかった。
論文 参考訳(メタデータ) (2023-04-20T10:59:56Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Beyond Classification: Directly Training Spiking Neural Networks for
Semantic Segmentation [5.800785186389827]
ニューラルネットワークの低消費電力代替としてスパイキングニューラルネットワーク(SNN)が登場している。
本稿では,ニューロンをスパイクしたセマンティックセグメンテーションネットワークの分類を超えて,SNNの応用について検討する。
論文 参考訳(メタデータ) (2021-10-14T21:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。