論文の概要: SPACT18: Spiking Human Action Recognition Benchmark Dataset with Complementary RGB and Thermal Modalities
- arxiv url: http://arxiv.org/abs/2507.16151v1
- Date: Tue, 22 Jul 2025 01:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.928917
- Title: SPACT18: Spiking Human Action Recognition Benchmark Dataset with Complementary RGB and Thermal Modalities
- Title(参考訳): SPACT18: 補完的なRGBと熱モダリティを用いた人間の行動認識ベンチマークデータセットのスパイク
- Authors: Yasser Ashraf, Ahmed Sharshar, Velibor Bojkovic, Bin Gu,
- Abstract要約: スパイクカメラ、バイオインスパイアされた視覚センサー、各ピクセルに光強度を蓄積して非同期に発火し、例外的な解像度のスパイクを提供する。
この研究は、エネルギー効率、超低消費電力のビデオ理解、特にスパイクベースのデータを用いた行動認識の研究を促進するデータセットに貢献する。
- 参考スコア(独自算出の注目度): 14.157338282165037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spike cameras, bio-inspired vision sensors, asynchronously fire spikes by accumulating light intensities at each pixel, offering ultra-high energy efficiency and exceptional temporal resolution. Unlike event cameras, which record changes in light intensity to capture motion, spike cameras provide even finer spatiotemporal resolution and a more precise representation of continuous changes. In this paper, we introduce the first video action recognition (VAR) dataset using spike camera, alongside synchronized RGB and thermal modalities, to enable comprehensive benchmarking for Spiking Neural Networks (SNNs). By preserving the inherent sparsity and temporal precision of spiking data, our three datasets offer a unique platform for exploring multimodal video understanding and serve as a valuable resource for directly comparing spiking, thermal, and RGB modalities. This work contributes a novel dataset that will drive research in energy-efficient, ultra-low-power video understanding, specifically for action recognition tasks using spike-based data.
- Abstract(参考訳): スパイクカメラ、バイオインスパイアされた視覚センサー、各ピクセルに光強度を蓄積することで非同期にスパイクを発生させ、超高エネルギー効率と例外的な時間分解能を提供する。
動きを捉えるための光強度の変化を記録するイベントカメラとは異なり、スパイクカメラはより微細な時空間分解能を提供し、連続的な変化をより正確に表現する。
本稿では,スパイクカメラを用いた最初のビデオ行動認識(VAR)データセットを,同期RGBとサーマルモダリティとともに導入し,スパイキングニューラルネットワーク(SNN)の総合的なベンチマークを可能にする。
私たちの3つのデータセットは、スパイクデータの本質的な空間性と時間的精度を保存することで、マルチモーダルなビデオ理解を探索するためのユニークなプラットフォームを提供し、スパイク、サーマル、RGBのモーダルを直接比較するための貴重なリソースとして役立ちます。
この研究は、エネルギー効率、超低消費電力のビデオ理解、特にスパイクベースのデータを用いた行動認識タスクの研究を促進する新しいデータセットに貢献する。
関連論文リスト
- A Novel Tuning Method for Real-time Multiple-Object Tracking Utilizing Thermal Sensor with Complexity Motion Pattern [7.6016974897939535]
サーマル画像における多対象追跡は監視システムに不可欠である。
熱画像における複雑な動きパターンの処理に特化して設計された,歩行者追跡のための新しいチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-07-03T08:03:35Z) - Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - Inter-event Interval Microscopy for Event Cameras [52.05337480169517]
イベントカメラは、革新的なバイオインスパイアされたセンサーであり、強度を直接知覚するのではなく、強度の変化を感知することで従来のカメラとは異なる。
蛍光顕微鏡における静的および動的シーンの静的なイベントカメラを用いたイベント・ツー・インテンシティ変換を実現する。
我々は,ハイダイナミックレンジや高速シナリオなど,様々な場面でIEIMatデータセットを収集した。
論文 参考訳(メタデータ) (2025-04-07T11:05:13Z) - Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文 参考訳(メタデータ) (2025-03-21T12:27:49Z) - EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera [17.61884467264023]
本稿では,イベントデータ処理に特化して設計された新しいネットワークアーキテクチャを提案する。
イベントカメラを用いたエゴセントリックなジェスチャー認識のための,最初の大規模データセットを構築した。
本手法は,7Mパラメータのみの未確認被験者に対して62.7%の精度を達成し,最先端手法よりも3.1%高い精度を示した。
論文 参考訳(メタデータ) (2025-03-16T09:08:02Z) - SpikMamba: When SNN meets Mamba in Event-based Human Action Recognition [13.426390494116776]
人間の行動認識(HAR)は、ビデオ分析、監視、自律運転、ロボット工学、医療など、様々な分野で重要な役割を果たしている。
ほとんどのHARアルゴリズムは、詳細な視覚情報をキャプチャするRGB画像から開発されている。
イベントカメラは、全画像を撮影することなく、ピクセルレベルでのシーンの明るさ変化をわずかに捉えることで、有望な解決策を提供する。
論文 参考訳(メタデータ) (2024-10-22T07:00:43Z) - A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation [3.355813093377501]
イベントカメラは、非同期バイナリスパイクとして光強度の時間変化を符号化する。
従来の画像に基づく深度推定手法には、従来のスパイク出力とラベル付きデータセットの不足が大きな課題となっている。
本研究では, スパイキングデータのユニークな特性を利用して, 深度推定のための新しいエネルギー効率の高いスパイク駆動型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T11:32:53Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera [8.673063170884591]
EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
論文 参考訳(メタデータ) (2023-09-17T15:14:01Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - E$^2$(GO)MOTION: Motion Augmented Event Stream for Egocentric Action
Recognition [21.199869051111367]
イベントカメラは「イベント」の形でピクセルレベルの強度変化を捉えます
N-EPIC-Kitchensは、大規模なEPIC-Kitchensデータセットの最初のイベントベースのカメラ拡張である。
イベントデータは、RGBと光フローに匹敵するパフォーマンスを提供するが、デプロイ時に追加のフロー計算を行わないことを示す。
論文 参考訳(メタデータ) (2021-12-07T09:43:08Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。