論文の概要: Event Transformer
- arxiv url: http://arxiv.org/abs/2204.05172v1
- Date: Mon, 11 Apr 2022 15:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 20:32:01.248484
- Title: Event Transformer
- Title(参考訳): イベントトランスフォーマー
- Authors: Zhihao Li, M. Salman Asif, Zhan Ma
- Abstract要約: イベントカメラは、(空間内で)非同期に(時間内で)ピクセルの明るさ変化(時間軸、イベント)を記録する
この研究は、イベントシーケンスをネイティブベクトル化テンソルフォーマットで処理するEvent Transformerを提案する。
局所的な時間的相関を利用するローカルトランスフォーマー(LXformer)、局所的な空間的類似性を埋め込むSコンフォーマー(SCformer)、グローバル情報をさらに集約するグローバルトランスフォーマー(GXformer)をカスケードする。
- 参考スコア(独自算出の注目度): 37.18171320405741
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The event camera is a bio-vision inspired camera with high dynamic range,
high response speed, and low power consumption, recently attracting extensive
attention for its use in vast vision tasks. Unlike the conventional cameras
that output intensity frame at a fixed time interval, event camera records the
pixel brightness change (a.k.a., event) asynchronously (in time) and sparsely
(in space). Existing methods often aggregate events occurred in a predefined
temporal duration for downstream tasks, which apparently overlook varying
behaviors of fine-grained temporal events. This work proposes the Event
Transformer to directly process the event sequence in its native vectorized
tensor format. It cascades a Local Transformer (LXformer) for exploiting the
local temporal correlation, a Sparse Conformer (SCformer) for embedding the
local spatial similarity, and a Global Transformer (GXformer) for further
aggregating the global information in a serial means to effectively
characterize the time and space correlations from input raw events for the
generation of effective spatiotemporal features used for tasks. %In both
LXformer and SCformer, Experimental studies have been extensively conducted in
comparison to another fourteen existing algorithms upon five different datasets
widely used for classification. Quantitative results report the
state-of-the-arts classification accuracy and the least computational resource
requirements, of the Event Transformer, making it practically attractive for
event-based vision tasks.
- Abstract(参考訳): event cameraはバイオビジョンにインスパイアされたカメラで、ダイナミックレンジが高く、応答速度が高く、消費電力も低い。
一定の時間間隔で強度フレームを出力する従来のカメラとは異なり、イベントカメラは、非同期(時間)および疎(空間)に画素輝度変化(例えばイベント)を記録する。
既存の方法では、ダウンストリームタスクのために予め定義された時間的期間にイベントを集約することが多い。
この研究は、イベントシーケンスをそのネイティブベクトル化テンソルフォーマットで直接処理するEvent Transformerを提案する。
局所時間相関を利用するローカルトランスフォーマー(LXformer)と、局所空間類似性を埋め込むスパースコンフォーマー(SCformer)と、シリアル手段でグローバル情報をさらに集約するグローバルトランスフォーマー(GXformer)とをカスケードし、入力された生イベントから時空間相関を効果的に特徴付け、タスクに有効な時空間特徴を生成する。
LXformer と SCformer の双方において, 分類に広く用いられている5つのデータセット上の14の既存アルゴリズムと比較して, 実験が広く行われている。
定量的な結果は、イベントトランスフォーマーの最先端の分類精度と最小の計算資源要件を報告し、イベントベースの視覚タスクにとって事実上魅力的である。
関連論文リスト
- Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - Representation Learning on Event Stream via an Elastic Net-incorporated
Tensor Network [1.9515859963221267]
本稿では,イベントストリーム中のすべてのイベントのグローバルな相関を同時に取得できる新しい表現法を提案する。
本手法は, 最先端手法と比較して, フィルタノイズなどの応用において有効な結果が得られる。
論文 参考訳(メタデータ) (2024-01-16T02:51:47Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance Fields [80.94515892378053]
EvDNeRFは、イベントデータを生成し、イベントベースの動的NeRFをトレーニングするためのパイプラインである。
NeRFは幾何学ベースの学習可能なレンダリングを提供するが、イベントの以前の作業は静的なシーンの再構築のみを考慮していた。
各種イベントのバッチサイズをトレーニングすることにより、微細な時間解像度でイベントのテスト時間予測を改善することができることを示す。
論文 参考訳(メタデータ) (2023-10-03T21:08:41Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification [6.550582412924754]
本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-08-23T06:07:56Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。