論文の概要: GET: Group Event Transformer for Event-Based Vision
- arxiv url: http://arxiv.org/abs/2310.02642v1
- Date: Wed, 4 Oct 2023 08:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:00:28.975206
- Title: GET: Group Event Transformer for Event-Based Vision
- Title(参考訳): GET: イベントベースのビジョンのためのグループイベントトランスフォーマー
- Authors: Yansong Peng and Yueyi Zhang and Zhiwei Xiong and Xiaoyan Sun and Feng
Wu
- Abstract要約: イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
- 参考スコア(独自算出の注目度): 82.312736707534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras are a type of novel neuromorphic sen-sor that has been gaining
increasing attention. Existing event-based backbones mainly rely on image-based
designs to extract spatial information within the image transformed from
events, overlooking important event properties like time and polarity. To
address this issue, we propose a novel Group-based vision Transformer backbone
for Event-based vision, called Group Event Transformer (GET), which de-couples
temporal-polarity information from spatial infor-mation throughout the feature
extraction process. Specifi-cally, we first propose a new event representation
for GET, named Group Token, which groups asynchronous events based on their
timestamps and polarities. Then, GET ap-plies the Event Dual Self-Attention
block, and Group Token Aggregation module to facilitate effective feature
commu-nication and integration in both the spatial and temporal-polarity
domains. After that, GET can be integrated with different downstream tasks by
connecting it with vari-ous heads. We evaluate our method on four event-based
classification datasets (Cifar10-DVS, N-MNIST, N-CARS, and DVS128Gesture) and
two event-based object detection datasets (1Mpx and Gen1), and the results
demonstrate that GET outperforms other state-of-the-art methods. The code is
available at https://github.com/Peterande/GET-Group-Event-Transformer.
- Abstract(参考訳): イベントカメラはニューロモルフィックなsen-sorの一種であり、注目を集めている。
既存のイベントベースのバックボーンは、主に画像ベースの設計に基づいて、イベントから変換された画像内の空間情報を抽出する。
本稿では,特徴抽出プロセスを通じて空間的インフォメーションから時間極性情報を分離するグループイベントトランスフォーマー(GET)と呼ばれる,イベントベースのビジョンのための新しいグループベースビジョントランスフォーマーのバックボーンを提案する。
まず最初に、そのタイムスタンプと極性に基づいて非同期イベントをグループ化するグループトークンという、GETの新しいイベント表現を提案する。
次に、GETはイベントデュアル自己認識ブロックとグループトークン集約モジュールをap-pし、空間的および時間的極性ドメインの両方で効果的な特徴の共有と統合を容易にする。
その後、GETは可変ヘッドと接続することで、異なる下流タスクと統合できる。
本稿では,4つのイベントベース分類データセット (cifar10-dvs, n-mnist, n-cars, dvs128gesture) と2つのイベントベースオブジェクト検出データセット (1mpx, gen1) について評価を行った。
コードはhttps://github.com/Peterande/GET-Group-Event-Transformerで公開されている。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z) - Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification [6.550582412924754]
本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-08-23T06:07:56Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - AET-EFN: A Versatile Design for Static and Dynamic Event-Based Vision [33.4444564715323]
イベントデータは、非常に高時間分解能の空間時間領域におけるノイズ、スパース、および不均一である。
既存の方法では、イベントをポイントクラウドベースまたはボクセルベースの表現にエンコードするが、ノイズや情報損失に悩まされる。
この研究は、新しいイベントデータ表現としてAligned Event Frame(AET)とEvent Frame Net(EFN)と呼ばれるきちんとしたフレームワークを提案する。
提案されたAETとEFNは様々なデータセットで評価され、既存の最先端のメソッドを大きなマージンで上回ることが証明された。
論文 参考訳(メタデータ) (2021-03-22T08:09:03Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。