論文の概要: Hybrid Spiking Vision Transformer for Object Detection with Event Cameras
- arxiv url: http://arxiv.org/abs/2505.07715v1
- Date: Mon, 12 May 2025 16:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.483559
- Title: Hybrid Spiking Vision Transformer for Object Detection with Event Cameras
- Title(参考訳): イベントカメラを用いた物体検出用ハイブリッドスパイキングビジョントランス
- Authors: Qi Xu, Jie Deng, Jiangrong Shen, Biwu Chen, Huajin Tang, Gang Pan,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、低エネルギー消費とリッチダイナミクスを提供する、有望なアプローチとして登場した。
本研究では,イベントベース物体検出の性能向上を目的としたハイブリッドトランスフォーマー(HsVT)モデルを提案する。
実験結果から,HsVTはより少ないパラメータでイベント検出において大幅な性能向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 19.967565219584056
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Event-based object detection has gained increasing attention due to its advantages such as high temporal resolution, wide dynamic range, and asynchronous address-event representation. Leveraging these advantages, Spiking Neural Networks (SNNs) have emerged as a promising approach, offering low energy consumption and rich spatiotemporal dynamics. To further enhance the performance of event-based object detection, this study proposes a novel hybrid spike vision Transformer (HsVT) model. The HsVT model integrates a spatial feature extraction module to capture local and global features, and a temporal feature extraction module to model time dependencies and long-term patterns in event sequences. This combination enables HsVT to capture spatiotemporal features, improving its capability to handle complex event-based object detection tasks. To support research in this area, we developed and publicly released The Fall Detection Dataset as a benchmark for event-based object detection tasks. This dataset, captured using an event-based camera, ensures facial privacy protection and reduces memory usage due to the event representation format. We evaluated the HsVT model on GEN1 and Fall Detection datasets across various model sizes. Experimental results demonstrate that HsVT achieves significant performance improvements in event detection with fewer parameters.
- Abstract(参考訳): イベントベースのオブジェクト検出は、高時間分解能、広ダイナミックレンジ、非同期アドレスイベント表現などの利点により、注目を集めている。
これらの利点を生かして、Spking Neural Networks(SNN)は、低エネルギー消費と豊富な時空間ダイナミクスを提供する、有望なアプローチとして登場した。
本研究では,イベントベース物体検出の性能を高めるために,新しいハイブリッドスパイクビジョントランス (HsVT) モデルを提案する。
HsVTモデルは、局所的およびグローバルな特徴をキャプチャするための空間的特徴抽出モジュールと、イベントシーケンス内の時間依存性と長期パターンをモデル化するための時間的特徴抽出モジュールを統合する。
この組み合わせにより、HsVTは時空間的特徴をキャプチャし、複雑なイベントベースのオブジェクト検出タスクを処理する能力を向上させることができる。
この領域の研究を支援するために、イベントベースのオブジェクト検出タスクのベンチマークとしてThe Fall Detection Datasetを開発し、公開しました。
このデータセットは、イベントベースのカメラを使用してキャプチャされ、顔のプライバシ保護が保証され、イベント表現フォーマットによるメモリ使用量を削減する。
GEN1およびFall Detectionデータセット上でのHsVTモデルの評価を行った。
実験結果から,HsVTはより少ないパラメータでイベント検出において大幅な性能向上を実現していることがわかった。
関連論文リスト
- Event Stream-based Visual Object Tracking: HDETrack V2 and A High-Definition Benchmark [36.9654606035663]
本稿では,学生トランスフォーマーネットワークの学習を支援するために,新しい階層的知識蒸留戦略を導入する。
新たに提案したテストタイムチューニング戦略により,テスト対象オブジェクトに対してネットワークモデルを適用する。
大規模なイベントベースのトラッキングデータセットであるEventVOTを提案する。
論文 参考訳(メタデータ) (2025-02-08T13:59:52Z) - EAS-SNN: End-to-End Adaptive Sampling and Representation for Event-based Detection with Recurrent Spiking Neural Networks [14.046487518350792]
スパイキングニューラルネットワーク(SNN)は、スパーススパイク通信を通じてイベント駆動の操作を行う。
本稿では,Residual potential Dropout (RPD) と Spike-Aware Training (SAT) を導入する。
我々の方法では、Gen1データセットで4.4%のmAP改善が得られ、パラメータは38%減少し、3つのタイムステップしか必要としない。
論文 参考訳(メタデータ) (2024-03-19T09:34:11Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。