論文の概要: Spatiotemporal Attention Learning Framework for Event-Driven Object Recognition
- arxiv url: http://arxiv.org/abs/2504.00370v1
- Date: Tue, 01 Apr 2025 02:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:46.767789
- Title: Spatiotemporal Attention Learning Framework for Event-Driven Object Recognition
- Title(参考訳): イベント駆動型物体認識のための時空間注意学習フレームワーク
- Authors: Tiantian Xie, Pengpai Wang, Rosa H. M. Chan,
- Abstract要約: イベントベースの視覚センサは、位置、極性、情報を含むスパースイベントストリームとして、局所ピクセルレベルの強度変化をキャプチャする。
本稿では、CBAM(Contemporalal Block Attention Module)により強化されたVARGGネットワークを利用した、イベントベースのオブジェクト認識のための新しい学習フレームワークを提案する。
提案手法は,従来のVGGモデルと比較してパラメータ数を2.3%削減しつつ,最先端のResNet手法に匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 1.0445957451908694
- License:
- Abstract: Event-based vision sensors, inspired by biological neural systems, asynchronously capture local pixel-level intensity changes as a sparse event stream containing position, polarity, and timestamp information. These neuromorphic sensors offer significant advantages in dynamic range, latency, and power efficiency. Their working principle inherently addresses traditional camera limitations such as motion blur and redundant background information, making them particularly suitable for dynamic vision tasks. While recent works have proposed increasingly complex event-based architectures, the computational overhead and parameter complexity of these approaches limit their practical deployment. This paper presents a novel spatiotemporal learning framework for event-based object recognition, utilizing a VGG network enhanced with Convolutional Block Attention Module (CBAM). Our approach achieves comparable performance to state-of-the-art ResNet-based methods while reducing parameter count by 2.3% compared to the original VGG model. Specifically, it outperforms ResNet-based methods like MVF-Net, achieving the highest Top-1 accuracy of 76.4% (pretrained) and 71.3% (not pretrained) on CIFAR10-DVS, and 72.4% (not pretrained) on N-Caltech101. These results highlight the robustness of our method when pretrained weights are not used, making it suitable for scenarios where transfer learning is unavailable. Moreover, our approach reduces reliance on data augmentation. Experimental results on standard event-based datasets demonstrate the framework's efficiency and effectiveness for real-world applications.
- Abstract(参考訳): 生物学的ニューラルネットワークにインスパイアされたイベントベースの視覚センサは、位置、極性、タイムスタンプ情報を含むスパースイベントストリームとして、局所的なピクセルレベルの強度変化を非同期にキャプチャする。
これらのニューロモルフィックセンサーは、ダイナミックレンジ、レイテンシ、電力効率において大きな利点をもたらす。
動作原理は、動きのぼやけや冗長な背景情報といった従来のカメラの制限に本質的に対処し、ダイナミックな視覚タスクに特に適している。
最近の研究で、ますます複雑なイベントベースのアーキテクチャが提案されているが、これらのアプローチの計算オーバーヘッドとパラメータの複雑さは、実際のデプロイメントを制限している。
本稿では、CBAM(Convolutional Block Attention Module)により強化されたVGGネットワークを利用して、イベントベースのオブジェクト認識のための新しい時空間学習フレームワークを提案する。
提案手法は,従来のVGGモデルと比較してパラメータ数を2.3%削減しながら,最先端のResNet手法に匹敵する性能を実現する。
具体的には、MVF-NetのようなResNetベースの手法よりも優れており、CIFAR10-DVSで76.4%(事前トレーニングなし)、71.3%(事前トレーニングなし)、72.4%(事前トレーニングなし)の最高精度をN-Caltech101で達成している。
これらの結果は,事前訓練した重量が使用されない場合の手法の堅牢性を強調し,移動学習が不可能なシナリオに適合する。
さらに,本手法はデータ拡張への依存を減らす。
標準イベントベースのデータセットの実験結果は、現実世界のアプリケーションにおけるフレームワークの効率性と有効性を示している。
関連論文リスト
- CREST: An Efficient Conjointly-trained Spike-driven Framework for Event-based Object Detection Exploiting Spatiotemporal Dynamics [7.696109414724968]
スパイキングニューラルネットワーク(SNN)は、イベントベースのオブジェクト認識と検出を約束する。
既存のSNNフレームワークは、多くの場合、マルチスケールの時間的特徴を扱うことができず、データの冗長性が向上し、精度が低下する。
我々は、イベントベースのオブジェクト検出を利用するために、結合的にトレーニングされた新しいスパイク駆動フレームワークであるCRESTを提案する。
論文 参考訳(メタデータ) (2024-12-17T04:33:31Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Event-Stream Super Resolution using Sigma-Delta Neural Network [0.10923877073891444]
イベントカメラは、それらが収集するデータの低解像度で疎結合で非同期な性質のため、ユニークな課題を示す。
現在のイベント超解像アルゴリズムは、イベントカメラによって生成された異なるデータ構造に対して完全に最適化されていない。
バイナリスパイクをSigma Delta Neural Networks(SDNNs)と統合する手法を提案する
論文 参考訳(メタデータ) (2024-08-13T15:25:18Z) - A Lightweight Spatiotemporal Network for Online Eye Tracking with Event Camera [0.8576354642891824]
イベントベースのデータは、効率性と低レイテンシが重要であるエッジコンピューティング環境で一般的に発生する。
このようなデータと対話し,その時間的豊かさを活用するために,因果畳み込みネットワークを提案する。
我々は,AIS 2024イベントベースのアイトラッキング課題に適用し,Kaggleプライベートテストセットで0.9916 p10の精度を達成した。
論文 参考訳(メタデータ) (2024-04-13T00:13:20Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - EV-VGCNN: A Voxel Graph CNN for Event-based Object Classification [18.154951807178943]
イベントカメラは、少ない強度変化を報告し、ポータブルデバイス上での視覚知覚と理解のための低消費電力、高ダイナミックレンジ、高応答速度の顕著な利点を目立たせる。
イベントベースの学習手法は、従来の2次元学習アルゴリズムを適用するために、イベントを密度の高いフレームベースの表現に統合することで、オブジェクト認識において大きな成功を収めている。
これらのアプローチは、スパース・トゥ・ディエンス変換の期間中に多くの冗長な情報を導入し、重量と大容量のモデルを必要とするため、リアルタイムアプリケーションにおけるイベントカメラの可能性を制限する。
論文 参考訳(メタデータ) (2021-06-01T04:07:03Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。