Fugu-MT 論文翻訳(概要): GET: Group Event Transformer for Event-Based Vision

論文の概要: GET: Group Event Transformer for Event-Based Vision

arxiv url: http://arxiv.org/abs/2310.02642v1
Date: Wed, 4 Oct 2023 08:02:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 16:00:28.975206
Title: GET: Group Event Transformer for Event-Based Vision
Title（参考訳）: GET: イベントベースのビジョンのためのグループイベントトランスフォーマー
Authors: Yansong Peng and Yueyi Zhang and Zhiwei Xiong and Xiaoyan Sun and Feng Wu
Abstract要約: イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。 GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
参考スコア（独自算出の注目度）: 82.312736707534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Event cameras are a type of novel neuromorphic sen-sor that has been gaining increasing attention. Existing event-based backbones mainly rely on image-based designs to extract spatial information within the image transformed from events, overlooking important event properties like time and polarity. To address this issue, we propose a novel Group-based vision Transformer backbone for Event-based vision, called Group Event Transformer (GET), which de-couples temporal-polarity information from spatial infor-mation throughout the feature extraction process. Specifi-cally, we first propose a new event representation for GET, named Group Token, which groups asynchronous events based on their timestamps and polarities. Then, GET ap-plies the Event Dual Self-Attention block, and Group Token Aggregation module to facilitate effective feature commu-nication and integration in both the spatial and temporal-polarity domains. After that, GET can be integrated with different downstream tasks by connecting it with vari-ous heads. We evaluate our method on four event-based classification datasets (Cifar10-DVS, N-MNIST, N-CARS, and DVS128Gesture) and two event-based object detection datasets (1Mpx and Gen1), and the results demonstrate that GET outperforms other state-of-the-art methods. The code is available at https://github.com/Peterande/GET-Group-Event-Transformer.
Abstract（参考訳）: イベントカメラはニューロモルフィックなsen-sorの一種であり、注目を集めている。既存のイベントベースのバックボーンは、主に画像ベースの設計に基づいて、イベントから変換された画像内の空間情報を抽出する。本稿では,特徴抽出プロセスを通じて空間的インフォメーションから時間極性情報を分離するグループイベントトランスフォーマー(GET)と呼ばれる,イベントベースのビジョンのための新しいグループベースビジョントランスフォーマーのバックボーンを提案する。まず最初に、そのタイムスタンプと極性に基づいて非同期イベントをグループ化するグループトークンという、GETの新しいイベント表現を提案する。次に、GETはイベントデュアル自己認識ブロックとグループトークン集約モジュールをap-pし、空間的および時間的極性ドメインの両方で効果的な特徴の共有と統合を容易にする。その後、GETは可変ヘッドと接続することで、異なる下流タスクと統合できる。本稿では,4つのイベントベース分類データセット (cifar10-dvs, n-mnist, n-cars, dvs128gesture) と2つのイベントベースオブジェクト検出データセット (1mpx, gen1) について評価を行った。コードはhttps://github.com/Peterande/GET-Group-Event-Transformerで公開されている。

関連論文リスト

Self-Supervised Event Representations: Towards Accurate, Real-Time Perception on SoC FPGAs [0.0]
イベントカメラは、従来のフレームベースのセンサーよりも大きな利点がある。疎結合で非同期なイベントストリームを効果的に処理することは依然として難しい。本稿では,新しい自己監視イベント表現(SSER)手法を提案する。
論文参考訳（メタデータ） (2025-05-12T13:32:08Z)
Event2Vec: Processing neuromorphic events directly by representations in vector space [12.165767356450289]
ニューロモルフィックイベントカメラは、従来のカメラと比較して時間分解能、電力効率、ダイナミックレンジに利点がある。しかし、イベントカメラは、メインストリームのコンピュータビジョンやディープラーニング手法と互換性のない、非同期、スパース、不規則なイベントを出力する。本稿では,従来のグラフ/イメージ/ボクセルベース表現よりも優れたパラメータ効率,精度,速度を示すベクトル(event2vec)表現の最初のイベントを提案する。
論文参考訳（メタデータ） (2025-04-21T18:21:18Z)
Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文参考訳（メタデータ） (2024-10-07T17:59:48Z)
Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文参考訳（メタデータ） (2024-09-26T06:12:08Z)
MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文参考訳（メタデータ） (2024-04-18T11:09:25Z)
EventTransAct: A video transformer-based framework for Event-camera based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文参考訳（メタデータ） (2023-08-25T23:51:07Z)
Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion based Classification [6.550582412924754]
本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2023-08-23T06:07:56Z)
Dual Memory Aggregation Network for Event-Based Object Detection with Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文参考訳（メタデータ） (2023-03-17T12:12:41Z)
Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-03-07T12:48:02Z)
Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文参考訳（メタデータ） (2022-04-11T15:05:06Z)
Bridging the Gap between Events and Frames through Unsupervised Domain Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文参考訳（メタデータ） (2021-09-06T17:31:37Z)
AET-EFN: A Versatile Design for Static and Dynamic Event-Based Vision [33.4444564715323]
イベントデータは、非常に高時間分解能の空間時間領域におけるノイズ、スパース、および不均一である。既存の方法では、イベントをポイントクラウドベースまたはボクセルベースの表現にエンコードするが、ノイズや情報損失に悩まされる。この研究は、新しいイベントデータ表現としてAligned Event Frame(AET)とEvent Frame Net(EFN)と呼ばれるきちんとしたフレームワークを提案する。提案されたAETとEFNは様々なデータセットで評価され、既存の最先端のメソッドを大きなマージンで上回ることが証明された。
論文参考訳（メタデータ） (2021-03-22T08:09:03Z)
Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-06-14T13:21:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。