論文の概要: GET: Group Event Transformer for Event-Based Vision
- arxiv url: http://arxiv.org/abs/2310.02642v1
- Date: Wed, 4 Oct 2023 08:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:00:28.975206
- Title: GET: Group Event Transformer for Event-Based Vision
- Title(参考訳): GET: イベントベースのビジョンのためのグループイベントトランスフォーマー
- Authors: Yansong Peng and Yueyi Zhang and Zhiwei Xiong and Xiaoyan Sun and Feng
Wu
- Abstract要約: イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
- 参考スコア(独自算出の注目度): 82.312736707534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras are a type of novel neuromorphic sen-sor that has been gaining
increasing attention. Existing event-based backbones mainly rely on image-based
designs to extract spatial information within the image transformed from
events, overlooking important event properties like time and polarity. To
address this issue, we propose a novel Group-based vision Transformer backbone
for Event-based vision, called Group Event Transformer (GET), which de-couples
temporal-polarity information from spatial infor-mation throughout the feature
extraction process. Specifi-cally, we first propose a new event representation
for GET, named Group Token, which groups asynchronous events based on their
timestamps and polarities. Then, GET ap-plies the Event Dual Self-Attention
block, and Group Token Aggregation module to facilitate effective feature
commu-nication and integration in both the spatial and temporal-polarity
domains. After that, GET can be integrated with different downstream tasks by
connecting it with vari-ous heads. We evaluate our method on four event-based
classification datasets (Cifar10-DVS, N-MNIST, N-CARS, and DVS128Gesture) and
two event-based object detection datasets (1Mpx and Gen1), and the results
demonstrate that GET outperforms other state-of-the-art methods. The code is
available at https://github.com/Peterande/GET-Group-Event-Transformer.
- Abstract(参考訳): イベントカメラはニューロモルフィックなsen-sorの一種であり、注目を集めている。
既存のイベントベースのバックボーンは、主に画像ベースの設計に基づいて、イベントから変換された画像内の空間情報を抽出する。
本稿では,特徴抽出プロセスを通じて空間的インフォメーションから時間極性情報を分離するグループイベントトランスフォーマー(GET)と呼ばれる,イベントベースのビジョンのための新しいグループベースビジョントランスフォーマーのバックボーンを提案する。
まず最初に、そのタイムスタンプと極性に基づいて非同期イベントをグループ化するグループトークンという、GETの新しいイベント表現を提案する。
次に、GETはイベントデュアル自己認識ブロックとグループトークン集約モジュールをap-pし、空間的および時間的極性ドメインの両方で効果的な特徴の共有と統合を容易にする。
その後、GETは可変ヘッドと接続することで、異なる下流タスクと統合できる。
本稿では,4つのイベントベース分類データセット (cifar10-dvs, n-mnist, n-cars, dvs128gesture) と2つのイベントベースオブジェクト検出データセット (1mpx, gen1) について評価を行った。
コードはhttps://github.com/Peterande/GET-Group-Event-Transformerで公開されている。
関連論文リスト
- Event Camera Data Dense Pre-training [12.27119620314554]
本稿では,イベントカメラデータを用いた高密度予測タスクに適したニューラルネットワークの事前学習を目的とした,自己教師付き学習フレームワークを提案する。
フレームワークをトレーニングするために、さまざまなシーンと動きパターンを特徴とする合成イベントカメラデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-11-20T04:36:19Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification [6.550582412924754]
本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-08-23T06:07:56Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning
on Event Streams [23.872611710730865]
イベントカメラは、視覚情報をスパースおよび非同期イベントストリームとして表現するニューロモルフィック視覚センサである。
本研究では,イベントストリーム上での表現学習のためのイベントVoxel Set Transformer (EVSTr) という新しい注意認識モデルを開発した。
オブジェクト分類と行動認識という2つのイベントベース認識タスクにおいて,提案したモデルを評価する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Event Transformer [37.18171320405741]
イベントカメラは、(空間内で)非同期に(時間内で)ピクセルの明るさ変化(時間軸、イベント)を記録する
この研究は、イベントシーケンスをネイティブベクトル化テンソルフォーマットで処理するEvent Transformerを提案する。
局所的な時間的相関を利用するローカルトランスフォーマー(LXformer)、局所的な空間的類似性を埋め込むSコンフォーマー(SCformer)、グローバル情報をさらに集約するグローバルトランスフォーマー(GXformer)をカスケードする。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - AET-EFN: A Versatile Design for Static and Dynamic Event-Based Vision [33.4444564715323]
イベントデータは、非常に高時間分解能の空間時間領域におけるノイズ、スパース、および不均一である。
既存の方法では、イベントをポイントクラウドベースまたはボクセルベースの表現にエンコードするが、ノイズや情報損失に悩まされる。
この研究は、新しいイベントデータ表現としてAligned Event Frame(AET)とEvent Frame Net(EFN)と呼ばれるきちんとしたフレームワークを提案する。
提案されたAETとEFNは様々なデータセットで評価され、既存の最先端のメソッドを大きなマージンで上回ることが証明された。
論文 参考訳(メタデータ) (2021-03-22T08:09:03Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。