論文の概要: Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification
- arxiv url: http://arxiv.org/abs/2308.11937v1
- Date: Wed, 23 Aug 2023 06:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:40:40.686980
- Title: Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification
- Title(参考訳): イベント画像・ボクセル特徴融合のための学習ボトルネックトランスフォーマー
- Authors: Chengguo Yuan, Yu Jin, Zongzhen Wu, Fanting Wei, Yangzirui Wang, Lan
Chen, and Xiao Wang
- Abstract要約: 本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
- 参考スコア(独自算出の注目度): 6.550582412924754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing target objects using an event-based camera draws more and more
attention in recent years. Existing works usually represent the event streams
into point-cloud, voxel, image, etc, and learn the feature representations
using various deep neural networks. Their final results may be limited by the
following factors: monotonous modal expressions and the design of the network
structure. To address the aforementioned challenges, this paper proposes a
novel dual-stream framework for event representation, extraction, and fusion.
This framework simultaneously models two common representations: event images
and event voxels. By utilizing Transformer and Structured Graph Neural Network
(GNN) architectures, spatial information and three-dimensional stereo
information can be learned separately. Additionally, a bottleneck Transformer
is introduced to facilitate the fusion of the dual-stream information.
Extensive experiments demonstrate that our proposed framework achieves
state-of-the-art performance on two widely used event-based classification
datasets. The source code of this work is available at:
\url{https://github.com/Event-AHU/EFV_event_classification}
- Abstract(参考訳): 近年,イベントベースカメラを用いた対象物体の認識が注目されている。
既存の作品は通常、イベントストリームをポイントクラウド、voxel、イメージなどに表現し、さまざまなディープニューラルネットワークを使って特徴表現を学ぶ。
最終結果は、単調なモーダル表現とネットワーク構造の設計によって制限される可能性がある。
上記の課題に対処するため,本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
このフレームワークは、イベントイメージとイベントボクセルの2つの共通表現を同時にモデル化する。
トランスフォーマーと構造化グラフニューラルネットワーク(GNN)アーキテクチャを利用することで、空間情報と立体情報を別々に学習することができる。
さらに、デュアルストリーム情報の融合を容易にするためにボトルネックトランスが導入された。
広範に利用されている2つのイベントベース分類データセットに対して,提案フレームワークが最先端のパフォーマンスを実現することを示す。
この作業のソースコードは以下の通りである。 \url{https://github.com/Event-AHU/EFV_event_classification}
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - Neuromorphic Imaging and Classification with Graph Learning [11.882239213276392]
バイオインスパイアされたニューロモルフィックカメラは、画素輝度変化を非同期に記録し、スパースイベントストリームを生成する。
多次元アドレスイベント構造のため、既存の視覚アルゴリズムは非同期イベントストリームを適切に扱えない。
イベントデータの新しいグラフ表現を提案し,それをグラフ変換器と組み合わせて正確なニューロモルフィック分類を行う。
論文 参考訳(メタデータ) (2023-09-27T12:58:18Z) - Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline [38.42400442371156]
既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
論文 参考訳(メタデータ) (2023-09-26T01:42:26Z) - SSTFormer: Bridging Spiking Neural Network and Memory Support
Transformer for Frame-Event based Recognition [42.118434116034194]
本稿では,RGBフレームとイベントストリームを同時に融合してパターンを認識することを提案する。
RGB-Eventベースの分類データセットが不足しているため、大規模なPokerEventデータセットも提案する。
論文 参考訳(メタデータ) (2023-08-08T16:15:35Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning
on Event Streams [23.872611710730865]
イベントカメラは、視覚情報をスパースおよび非同期イベントストリームとして表現するニューロモルフィック視覚センサである。
本研究では,イベントストリーム上での表現学習のためのイベントVoxel Set Transformer (EVSTr) という新しい注意認識モデルを開発した。
オブジェクト分類と行動認識という2つのイベントベース認識タスクにおいて,提案したモデルを評価する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Superevents: Towards Native Semantic Segmentation for Event-based
Cameras [13.099264910430986]
最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
本論文では,全畳み込みネットワークに供給されるイベントストリーム表現を得るために,生涯拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-13T05:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。