論文の概要: EventTransAct: A video transformer-based framework for Event-camera
based action recognition
- arxiv url: http://arxiv.org/abs/2308.13711v1
- Date: Fri, 25 Aug 2023 23:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:36:45.235247
- Title: EventTransAct: A video transformer-based framework for Event-camera
based action recognition
- Title(参考訳): eventtransact: イベントカメラベースのアクション認識のためのビデオトランスフォーマティブベースのフレームワーク
- Authors: Tristan de Blegiers, Ishan Rajendrakumar Dave, Adeel Yousaf, Mubarak
Shah
- Abstract要約: イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
- 参考スコア(独自算出の注目度): 52.537021302246664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing and comprehending human actions and gestures is a crucial
perception requirement for robots to interact with humans and carry out tasks
in diverse domains, including service robotics, healthcare, and manufacturing.
Event cameras, with their ability to capture fast-moving objects at a high
temporal resolution, offer new opportunities compared to standard action
recognition in RGB videos. However, previous research on event camera action
recognition has primarily focused on sensor-specific network architectures and
image encoding, which may not be suitable for new sensors and limit the use of
recent advancements in transformer-based architectures. In this study, we
employ a computationally efficient model, namely the video transformer network
(VTN), which initially acquires spatial embeddings per event-frame and then
utilizes a temporal self-attention mechanism. In order to better adopt the VTN
for the sparse and fine-grained nature of event data, we design
Event-Contrastive Loss ($\mathcal{L}_{EC}$) and event-specific augmentations.
Proposed $\mathcal{L}_{EC}$ promotes learning fine-grained spatial cues in the
spatial backbone of VTN by contrasting temporally misaligned frames. We
evaluate our method on real-world action recognition of N-EPIC Kitchens
dataset, and achieve state-of-the-art results on both protocols - testing in
seen kitchen (\textbf{74.9\%} accuracy) and testing in unseen kitchens
(\textbf{42.43\% and 46.66\% Accuracy}). Our approach also takes less
computation time compared to competitive prior approaches, which demonstrates
the potential of our framework \textit{EventTransAct} for real-world
applications of event-camera based action recognition. Project Page:
\url{https://tristandb8.github.io/EventTransAct_webpage/}
- Abstract(参考訳): 人間の行動とジェスチャーの認識と理解は、ロボットが人間と対話し、サービスロボティクス、ヘルスケア、製造など様々な領域でタスクを実行するための重要な認識要件である。
イベントカメラは、高速で動く物体を高時間解像度で撮影する機能を備え、RGBビデオの標準アクション認識と比較して、新たな機会を提供する。
しかし、イベントカメラの動作認識に関するこれまでの研究は、センサー固有のネットワークアーキテクチャと画像エンコーディングに重点を置いており、新しいセンサーには適していない可能性があり、トランスフォーマーベースのアーキテクチャにおける最近の進歩を制限している。
本研究では,まずイベントフレーム毎の空間埋め込みを取得し,その上で時間的自己認識機構を利用するビデオトランスフォーマーネットワーク(VTN)という計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラスト損失($\mathcal{L}_{EC}$)とイベント固有の拡張を設計する。
提案された$\mathcal{L}_{EC}$は、時間的に不一致なフレームを対比することにより、VTNの空間バックボーンにおけるきめ細かい空間的手がかりの学習を促進する。
筆者らは,N-EPIC Kitchensデータセットの現実的な行動認識について評価し,見知らぬキッチンにおけるテスト (\textbf{74.9\%} 精度) と目に見えないキッチンにおけるテスト (\textbf{42.43\%, 46.66\% 精度) という,両プロトコルの最先端結果を得た。
このアプローチは、リアルタイムのイベントカメラベースのアクション認識アプリケーションのためのフレームワーク \textit{eventtransact}の可能性を実証するものです。
プロジェクトページ: \url{https://tristandb8.github.io/eventtransact_webpage/}
関連論文リスト
- Spatio-temporal Transformers for Action Unit Classification with Event Cameras [28.98336123799572]
本稿では,RGBビデオとイベントストリームからなる時間同期型マルチモーダル顔データセットであるFACEMORPHICを提案する。
映像を手動でアノテートすることなく、時間同期が効果的なニューロモルフィック顔分析を可能にすることを示す。
論文 参考訳(メタデータ) (2024-10-29T11:23:09Z) - EV-Catcher: High-Speed Object Catching Using Low-latency Event-based
Neural Networks [107.62975594230687]
イベントカメラが優れており、高速移動物体の衝突位置を正確に推定するアプリケーションを実証する。
イベントデータを低レイテンシでエンコードするために,Binary Event History Image(BEHI)と呼ばれる軽量なイベント表現を導入する。
計算制約のある組込みプラットフォーム上でも最大13m/sの速さで, 異なる場所をターゲットとした球のキャッチにおいて, 81%の成功率を達成することができることを示す。
論文 参考訳(メタデータ) (2023-04-14T15:23:28Z) - How Many Events do You Need? Event-based Visual Place Recognition Using
Sparse But Varying Pixels [29.6328152991222]
イベントカメラ研究の潜在的な応用の1つは、ロボットのローカライゼーションのための視覚的位置認識である。
事象フレームに蓄積した画素位置における事象数に絶対的な差があることが、位置認識タスクに十分であることを示す。
我々は,Brisbane-Event-VPRデータセットに対する提案手法を,新たに提案した屋内QCR-Event-VPRデータセットとともに屋外運転シナリオで評価した。
論文 参考訳(メタデータ) (2022-06-28T00:24:12Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Neuromorphic Eye-in-Hand Visual Servoing [0.9949801888214528]
イベントカメラは、低レイテンシと広いダイナミックレンジで人間のような視覚機能を提供する。
本稿では,イベントカメラとスイッチング制御戦略を用いて,探索,到達,把握を行う視覚サーボ手法を提案する。
実験は、異なる形状の物体を追跡して把握する手法の有効性を、再学習を必要とせずに証明する。
論文 参考訳(メタデータ) (2020-04-15T23:57:54Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z) - A Differentiable Recurrent Surface for Asynchronous Event-Based Data [19.605628378366667]
本研究では,Long Short-Term Memory (LSTM) セルのグリッドであるMatrix-LSTMを提案する。
既存の再構成手法と比較して,学習した事象表面は柔軟性と光フロー推定に優れていた。
N-Carsデータセット上でのイベントベースのオブジェクト分類の最先端性を改善する。
論文 参考訳(メタデータ) (2020-01-10T14:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。