論文の概要: Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video
Recognition
- arxiv url: http://arxiv.org/abs/2312.11128v1
- Date: Mon, 18 Dec 2023 11:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:18:49.225035
- Title: Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video
Recognition
- Title(参考訳): 平衡rgb-eventビデオ認識のためのcnnとtransformerのパワー解放
- Authors: Xiao Wang, Yao Rong, Shiao Wang, Yuan Chen, Zhe Wu, Bo Jiang, Yonghong
Tian, Jin Tang
- Abstract要約: TSCFormer と呼ばれる新しい RGB-Event ベースの認識フレームワークを提案する。
主に、バックボーンネットワークとしてCNNを採用し、まずRGBとイベントデータをエンコードします。
両方のモダリティの間のグローバルな長距離関係をうまく捉え、モデルアーキテクチャ全体の単純さを維持します。
- 参考スコア(独自算出の注目度): 43.52320791818535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pattern recognition based on RGB-Event data is a newly arising research topic
and previous works usually learn their features using CNN or Transformer. As we
know, CNN captures the local features well and the cascaded self-attention
mechanisms are good at extracting the long-range global relations. It is
intuitive to combine them for high-performance RGB-Event based video
recognition, however, existing works fail to achieve a good balance between the
accuracy and model parameters, as shown in Fig.~\ref{firstimage}. In this work,
we propose a novel RGB-Event based recognition framework termed TSCFormer,
which is a relatively lightweight CNN-Transformer model. Specifically, we
mainly adopt the CNN as the backbone network to first encode both RGB and Event
data. Meanwhile, we initialize global tokens as the input and fuse them with
RGB and Event features using the BridgeFormer module. It captures the global
long-range relations well between both modalities and maintains the simplicity
of the whole model architecture at the same time. The enhanced features will be
projected and fused into the RGB and Event CNN blocks, respectively, in an
interactive manner using F2E and F2V modules. Similar operations are conducted
for other CNN blocks to achieve adaptive fusion and local-global feature
enhancement under different resolutions. Finally, we concatenate these three
features and feed them into the classification head for pattern recognition.
Extensive experiments on two large-scale RGB-Event benchmark datasets
(PokerEvent and HARDVS) fully validated the effectiveness of our proposed
TSCFormer. The source code and pre-trained models will be released at
https://github.com/Event-AHU/TSCFormer.
- Abstract(参考訳): RGB-Eventデータに基づくパターン認識は新たな研究トピックであり、以前の研究は通常、CNNやTransformerを使って機能を学ぶ。
私たちが知っているように、CNNは局所的な特徴をうまく捉えており、ケースド・セルフアテンション・メカニズムは長距離のグローバルな関係を抽出するのに優れている。
高性能なRGBイベントベースのビデオ認識に組み合わせることは直感的であるが、Figに示されているように、既存の研究は精度とモデルパラメータのバランスが良くない。
~\ref{firstimage}。
本稿では,比較的軽量なcnn-transformerモデルであるtscformerと呼ばれる新しいrgbイベントベースの認識フレームワークを提案する。
具体的には、主にCNNをバックボーンネットワークとして採用し、まずRGBとイベントデータをエンコードする。
一方、グローバルトークンを入力として初期化し、bridgeformerモジュールを使用してrgbとイベント機能を融合します。
両方のモダリティ間のグローバルな長距離関係をうまく捉え、同時にモデルアーキテクチャ全体の単純さを維持する。
拡張された機能は、それぞれRGBとEvent CNNブロックに投影され、F2EとF2Vモジュールを使用して対話的に融合される。
他のCNNブロックに対して同様の操作を行い、異なる解像度で適応融合と局所的特徴強調を実現する。
最後に、これら3つの特徴を結合させ、パターン認識のための分類ヘッドに供給する。
2つの大規模RGB-Eventベンチマークデータセット(PokerEventとHARDVS)に対する大規模な実験により、提案したTSCFormerの有効性が完全に検証された。
ソースコードと事前トレーニングされたモデルはhttps://github.com/event-ahu/tscformerでリリースされる。
関連論文リスト
- TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large
Vision-Language Models [15.231177830711077]
セマンティックラベル,RGBフレーム,イベントストリームを統合した新しいパターン認識フレームワークを提案する。
セマンティックなラベルを扱うために,素早い工学を通して言語記述に変換する。
マルチモーダルトランスフォーマーネットワークを用いたRGB/Event機能とセマンティック機能を統合する。
論文 参考訳(メタデータ) (2023-11-30T14:35:51Z) - SSTFormer: Bridging Spiking Neural Network and Memory Support
Transformer for Frame-Event based Recognition [42.118434116034194]
本稿では,RGBフレームとイベントストリームを同時に融合してパターンを認識することを提案する。
RGB-Eventベースの分類データセットが不足しているため、大規模なPokerEventデータセットも提案する。
論文 参考訳(メタデータ) (2023-08-08T16:15:35Z) - TANet: Transformer-based Asymmetric Network for RGB-D Salient Object
Detection [13.126051625000605]
RGB-D SOD法は主に対称な2ストリームCNNネットワークに依存し、RGBと深さチャネルの特徴を別々に抽出する。
本稿では,トランスフォーマーを用いた非対称ネットワーク(TANet)を提案する。
提案手法は、6つの公開データセット上での14の最先端RGB-D手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-07-04T03:06:59Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。