論文の概要: Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification
- arxiv url: http://arxiv.org/abs/2308.11937v1
- Date: Wed, 23 Aug 2023 06:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:40:40.686980
- Title: Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification
- Title(参考訳): イベント画像・ボクセル特徴融合のための学習ボトルネックトランスフォーマー
- Authors: Chengguo Yuan, Yu Jin, Zongzhen Wu, Fanting Wei, Yangzirui Wang, Lan
Chen, and Xiao Wang
- Abstract要約: 本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
- 参考スコア(独自算出の注目度): 6.550582412924754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing target objects using an event-based camera draws more and more
attention in recent years. Existing works usually represent the event streams
into point-cloud, voxel, image, etc, and learn the feature representations
using various deep neural networks. Their final results may be limited by the
following factors: monotonous modal expressions and the design of the network
structure. To address the aforementioned challenges, this paper proposes a
novel dual-stream framework for event representation, extraction, and fusion.
This framework simultaneously models two common representations: event images
and event voxels. By utilizing Transformer and Structured Graph Neural Network
(GNN) architectures, spatial information and three-dimensional stereo
information can be learned separately. Additionally, a bottleneck Transformer
is introduced to facilitate the fusion of the dual-stream information.
Extensive experiments demonstrate that our proposed framework achieves
state-of-the-art performance on two widely used event-based classification
datasets. The source code of this work is available at:
\url{https://github.com/Event-AHU/EFV_event_classification}
- Abstract(参考訳): 近年,イベントベースカメラを用いた対象物体の認識が注目されている。
既存の作品は通常、イベントストリームをポイントクラウド、voxel、イメージなどに表現し、さまざまなディープニューラルネットワークを使って特徴表現を学ぶ。
最終結果は、単調なモーダル表現とネットワーク構造の設計によって制限される可能性がある。
上記の課題に対処するため,本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
このフレームワークは、イベントイメージとイベントボクセルの2つの共通表現を同時にモデル化する。
トランスフォーマーと構造化グラフニューラルネットワーク(GNN)アーキテクチャを利用することで、空間情報と立体情報を別々に学習することができる。
さらに、デュアルストリーム情報の融合を容易にするためにボトルネックトランスが導入された。
広範に利用されている2つのイベントベース分類データセットに対して,提案フレームワークが最先端のパフォーマンスを実現することを示す。
この作業のソースコードは以下の通りである。 \url{https://github.com/Event-AHU/EFV_event_classification}
関連論文リスト
- Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline [38.42400442371156]
既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
論文 参考訳(メタデータ) (2023-09-26T01:42:26Z) - SSTFormer: Bridging Spiking Neural Network and Memory Support
Transformer for Frame-Event based Recognition [42.118434116034194]
本稿では,RGBフレームとイベントストリームを同時に融合してパターンを認識することを提案する。
RGB-Eventベースの分類データセットが不足しているため、大規模なPokerEventデータセットも提案する。
論文 参考訳(メタデータ) (2023-08-08T16:15:35Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。