論文の概要: Event Masked Autoencoder: Point-wise Action Recognition with Event-Based Cameras
- arxiv url: http://arxiv.org/abs/2501.01040v1
- Date: Thu, 02 Jan 2025 03:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:17.590455
- Title: Event Masked Autoencoder: Point-wise Action Recognition with Event-Based Cameras
- Title(参考訳): イベントマスキングオートエンコーダ:イベントベースカメラを用いたポイントワイドアクション認識
- Authors: Jingkai Sun, Qiang Zhang, Jiaxu Wang, Jiahang Cao, Renjing Xu,
- Abstract要約: 本稿では,行動認識のためのイベントデータの構造を保存・活用する新しいフレームワークを提案する。
本フレームワークは,1)マスキングされた生のイベントカメラポイントデータからイベントパッチを再構成することにより,コンパクトかつ離散的な表現を学習するポイントワイド・イベントマスク自動エンコーダ (MAE) ,2) イベントデータインレーヤモデルとポイントワイドデータ拡張技術を活用する改良されたイベントポイントパッチ生成アルゴリズムにより,品質と多様性のイベントポイントパッチを向上する。
- 参考スコア(独自算出の注目度): 8.089601548579116
- License:
- Abstract: Dynamic vision sensors (DVS) are bio-inspired devices that capture visual information in the form of asynchronous events, which encode changes in pixel intensity with high temporal resolution and low latency. These events provide rich motion cues that can be exploited for various computer vision tasks, such as action recognition. However, most existing DVS-based action recognition methods lose temporal information during data transformation or suffer from noise and outliers caused by sensor imperfections or environmental factors. To address these challenges, we propose a novel framework that preserves and exploits the spatiotemporal structure of event data for action recognition. Our framework consists of two main components: 1) a point-wise event masked autoencoder (MAE) that learns a compact and discriminative representation of event patches by reconstructing them from masked raw event camera points data; 2) an improved event points patch generation algorithm that leverages an event data inlier model and point-wise data augmentation techniques to enhance the quality and diversity of event points patches. To the best of our knowledge, our approach introduces the pre-train method into event camera raw points data for the first time, and we propose a novel event points patch embedding to utilize transformer-based models on event cameras.
- Abstract(参考訳): ダイナミックビジョンセンサー(DVS)は、非同期イベントの形式で視覚情報をキャプチャするバイオインスパイアされたデバイスで、高時間分解能と低レイテンシで画素強度の変化をエンコードする。
これらのイベントは、アクション認識などの様々なコンピュータビジョンタスクに活用できるリッチなモーションキューを提供する。
しかし、既存のDVSベースの行動認識手法の多くは、データ変換中に時間的情報を失うか、センサの不完全性や環境要因に起因するノイズや外乱に悩まされる。
これらの課題に対処するために,イベントデータの時空間構造を保存・活用する新しいフレームワークを提案する。
私たちのフレームワークは2つの主要コンポーネントで構成されています。
1)マスキングされた生のイベントカメラデータからそれらを再構成することにより、コンパクトで識別可能なイベントパッチの表現を学習するポイントワイドイベントマスキングオートエンコーダ(MAE)
2) 改良されたイベントポイントパッチ生成アルゴリズムは、イベントポイントパッチの品質と多様性を高めるために、イベントデータインレーサモデルとポイントワイズデータ拡張技術を活用する。
我々の知る限り, イベントカメラの原点データに事前学習手法を導入し, イベントカメラ上のトランスフォーマーモデルを利用するための新しいイベントポイントパッチ埋め込みを提案する。
関連論文リスト
- EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Cross-modal Place Recognition in Image Databases using Event-based
Sensors [28.124708490967713]
イベントクエリが与えられたデータベースから正規画像を取得することができる,最初のクロスプラットフォームな視覚的位置認識フレームワークを提案する。
本手法は,ブリスベン-イベント-VPRデータセット上での最先端のフレームベースおよびイベントベース手法に関する有望な結果を示す。
論文 参考訳(メタデータ) (2023-07-03T14:24:04Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。
深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文 参考訳(メタデータ) (2023-02-17T14:19:28Z) - How Many Events do You Need? Event-based Visual Place Recognition Using
Sparse But Varying Pixels [29.6328152991222]
イベントカメラ研究の潜在的な応用の1つは、ロボットのローカライゼーションのための視覚的位置認識である。
事象フレームに蓄積した画素位置における事象数に絶対的な差があることが、位置認識タスクに十分であることを示す。
我々は,Brisbane-Event-VPRデータセットに対する提案手法を,新たに提案した屋内QCR-Event-VPRデータセットとともに屋外運転シナリオで評価した。
論文 参考訳(メタデータ) (2022-06-28T00:24:12Z) - MEFNet: Multi-scale Event Fusion Network for Motion Deblurring [62.60878284671317]
従来のフレームベースのカメラは、長時間露光のために必然的に動きがぼやけている。
バイオインスパイアされたカメラの一種として、イベントカメラは、高時間分解能で非同期な方法で強度変化を記録する。
本稿では,イベントベースの画像劣化問題を再考し,これをエンドツーエンドの2段階画像復元ネットワークに展開する。
論文 参考訳(メタデータ) (2021-11-30T23:18:35Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - Representation Learning for Event-based Visuomotor Policies [18.4767874925189]
非同期イベントデータからの教師なし表現のためのイベント自動コーダを提案する。
テンポラリなイベントデータからコンテクストのエンコードまで,コンパクトな表現を学習することが可能であることを示す。
シミュレーションで障害物回避シナリオに適用することにより、この枠組みの学習のバイスモモモターポリシーを検証します。
論文 参考訳(メタデータ) (2021-03-01T07:04:00Z) - Learning to Detect Objects with a 1 Megapixel Event Camera [14.949946376335305]
イベントカメラは、高時間精度、低データレート、高ダイナミックレンジで視覚情報を符号化する。
フィールドの新規性のため、多くのビジョンタスクにおけるイベントベースのシステムの性能は、従来のフレームベースのソリューションに比べて依然として低い。
論文 参考訳(メタデータ) (2020-09-28T16:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。