論文の概要: Event2Vec: Processing Neuromorphic Events directly by Representations in Vector Space
- arxiv url: http://arxiv.org/abs/2504.15371v3
- Date: Thu, 25 Sep 2025 15:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.318133
- Title: Event2Vec: Processing Neuromorphic Events directly by Representations in Vector Space
- Title(参考訳): Event2Vec: ベクトル空間における表現によるニューロモルフィックイベントの直接処理
- Authors: Wei Fang, Priyadarshini Panda,
- Abstract要約: ニューロモルフィックイベントカメラは、従来のカメラに比べて時間分解能、電力効率、ダイナミックレンジが優れている。
この非互換性に対する既存のソリューションは、しばしば時間分解を犠牲にし、広範囲の事前処理を必要とし、GPUアクセラレーションを完全に活用しない。
我々は、ニューラルネットワークがイベントを直接処理できる新しい表現であるEvent2vecを紹介した。
- 参考スコア(独自算出の注目度): 11.383354549570436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuromorphic event cameras possess superior temporal resolution, power efficiency, and dynamic range compared to traditional cameras. However, their asynchronous and sparse data format poses a significant challenge for conventional deep learning methods. Existing solutions to this incompatibility often sacrifice temporal resolution, require extensive pre-processing, and do not fully leverage GPU acceleration. Inspired by word-to-vector models, we draw an analogy between words and events to introduce event2vec, a novel representation that allows neural networks to process events directly. This approach is fully compatible with the parallel processing and self-supervised learning capabilities of Transformer architectures. We demonstrate the effectiveness of event2vec on the DVS Gesture, ASL-DVS, and DVS-Lip benchmarks. A comprehensive ablation study further analyzes our method's features and contrasts them with existing representations. The experimental results show that event2vec is remarkably parameter-efficient, has high throughput, and can achieve high accuracy even with an extremely low number of events. Beyond its performance, the most significant contribution of event2vec is a new paradigm that enables neural networks to process event streams as if they were natural language. This paradigm shift paves the way for the native integration of event cameras with large language models and multimodal models. Code, model, and training logs are provided in https://github.com/Intelligent-Computing-Lab-Panda/event2vec.
- Abstract(参考訳): ニューロモルフィックイベントカメラは、従来のカメラに比べて時間分解能、電力効率、ダイナミックレンジが優れている。
しかし、非同期でスパースなデータ形式は、従来のディープラーニング手法にとって大きな課題となる。
この非互換性に対する既存のソリューションは、しばしば時間分解を犠牲にし、広範囲の事前処理を必要とし、GPUアクセラレーションを完全に活用しない。
ワード・ツー・ベクターモデルにインスパイアされた我々は、ニューラルネットワークがイベントを直接処理できる新しい表現であるEvent2vecを導入するために、単語とイベント間の類似性を描く。
このアプローチはTransformerアーキテクチャの並列処理と自己教師型学習機能と完全に互換性がある。
DVS Gesture, ASL-DVS, DVS-Lip ベンチマークにおける Event2vec の有効性を示す。
包括的アブレーション研究は、我々の手法の特徴を解析し、既存の表現と対比する。
実験の結果,Event2vecはパラメータ効率が極めて高く,スループットが高く,極めて少ないイベントでも高い精度が得られることがわかった。
パフォーマンス以外にも、Event2vecの最も重要な貢献は、ニューラルネットワークが自然言語のようにイベントストリームを処理することを可能にする、新たなパラダイムである。
このパラダイムシフトは、イベントカメラと大規模言語モデルとマルチモーダルモデルとのネイティブ統合の道を開くものだ。
コード、モデル、トレーニングログはhttps://github.com/Intelligent-Computing-Lab-Panda/event2vecで提供されている。
関連論文リスト
- EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - Text-to-Events: Synthetic Event Camera Streams from Conditional Text Input [8.365349007799296]
イベントカメラは、低レイテンシとスパース出力応答を持つ視覚センサーを必要とするタスクに有利である。
本稿では,テキスト・ツー・Xモデルを用いてラベル付きイベント・データセットを新たに作成する方法を報告する。
本モデルでは,異なる文文によって引き起こされる人間のジェスチャーのリアルなイベントシーケンスを生成できることを実証する。
論文 参考訳(メタデータ) (2024-06-05T16:34:12Z) - Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。
現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文 参考訳(メタデータ) (2024-04-29T08:50:27Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - Graph-based Asynchronous Event Processing for Rapid Object Recognition [59.112755601918074]
イベントカメラは、各イベントがピクセル位置、トリガ時間、明るさの極性が変化するような非同期イベントストリームをキャプチャする。
イベントカメラのための新しいグラフベースのフレームワーク、SlideGCNを紹介した。
当社のアプローチでは、データをイベント単位で効率的に処理し、内部でグラフの構造を維持しながら、イベントデータの低レイテンシ特性を解放することが可能です。
論文 参考訳(メタデータ) (2023-08-28T08:59:57Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Event Transformer+. A multi-purpose solution for efficient event data
processing [13.648678472312374]
イベントカメラは、高時間分解能と高ダイナミックレンジでスパース照明変化を記録する。
現在の手法は特定のイベントデータ特性を無視することが多く、汎用的だが計算コストのかかるアルゴリズムの開発に繋がる。
本稿では,改良されたパッチベースのイベント表現を用いて,セマンティックな作業EvTを改善するEvent Transformer+を提案する。
論文 参考訳(メタデータ) (2022-11-22T12:28:37Z) - Avoiding Post-Processing with Event-Based Detection in Biomedical
Signals [69.34035527763916]
学習対象としてイベントを直接扱うイベントベースのモデリングフレームワークを提案する。
イベントベースのモデリング(後処理なし)は、広範囲な後処理を伴うエポックベースのモデリングと同等以上のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-09-22T13:44:13Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。