論文の概要: Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2311.18592v1
- Date: Thu, 30 Nov 2023 14:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 16:22:37.022037
- Title: Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large
Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルを用いた意味認識型フレームイベント融合に基づくパターン認識
- Authors: Dong Li, Jiandong Jin, Yuhao Zhang, Yanlin Zhong, Yaoyang Wu, Lan
Chen, Xiao Wang, Bin Luo
- Abstract要約: セマンティックラベル,RGBフレーム,イベントストリームを統合した新しいパターン認識フレームワークを提案する。
セマンティックなラベルを扱うために,素早い工学を通して言語記述に変換する。
マルチモーダルトランスフォーマーネットワークを用いたRGB/Event機能とセマンティック機能を統合する。
- 参考スコア(独自算出の注目度): 15.231177830711077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pattern recognition through the fusion of RGB frames and Event streams has
emerged as a novel research area in recent years. Current methods typically
employ backbone networks to individually extract the features of RGB frames and
event streams, and subsequently fuse these features for pattern recognition.
However, we posit that these methods may suffer from key issues like sematic
gaps and small-scale backbone networks. In this study, we introduce a novel
pattern recognition framework that consolidates the semantic labels, RGB
frames, and event streams, leveraging pre-trained large-scale vision-language
models. Specifically, given the input RGB frames, event streams, and all the
predefined semantic labels, we employ a pre-trained large-scale vision model
(CLIP vision encoder) to extract the RGB and event features. To handle the
semantic labels, we initially convert them into language descriptions through
prompt engineering, and then obtain the semantic features using the pre-trained
large-scale language model (CLIP text encoder). Subsequently, we integrate the
RGB/Event features and semantic features using multimodal Transformer networks.
The resulting frame and event tokens are further amplified using self-attention
layers. Concurrently, we propose to enhance the interactions between text
tokens and RGB/Event tokens via cross-attention. Finally, we consolidate all
three modalities using self-attention and feed-forward layers for recognition.
Comprehensive experiments on the HARDVS and PokerEvent datasets fully
substantiate the efficacy of our proposed SAFE model. The source code will be
made available at https://github.com/Event-AHU/SAFE_LargeVLM.
- Abstract(参考訳): 近年,rgbフレームとイベントストリームの融合によるパターン認識が新たな研究領域として出現している。
現在の方法では通常、バックボーンネットワークを使用して、rgbフレームとイベントストリームの特徴を個別に抽出し、それらの特徴をパターン認識のために融合する。
しかし,これらの手法はセマティックギャップや小規模なバックボーンネットワークといった重要な問題に悩まされる可能性がある。
本研究では,事前学習された大規模視覚言語モデルを用いて意味ラベル,rgbフレーム,イベントストリームを統合する新しいパターン認識フレームワークを提案する。
具体的には、入力されたRGBフレーム、イベントストリーム、および予め定義されたセマンティックラベルを考慮し、RGBとイベントの特徴を抽出するために、事前訓練された大規模ビジョンモデル(CLIPビジョンエンコーダ)を用いる。
セマンティックなラベルを扱うために、まずはプロンプトエンジニアリングを通して言語記述に変換し、訓練済みの大規模言語モデル(CLIPテキストエンコーダ)を用いてセマンティックな特徴を得る。
その後、マルチモーダルトランスフォーマーネットワークを用いてRGB/Event機能とセマンティック機能を統合する。
結果のフレームとイベントトークンは、自己アテンション層を使用してさらに増幅される。
同時に,テキストトークンとRGB/Eventトークンの相互接続性の向上を提案する。
最後に,認識のためのセルフアテンション層とフィードフォワード層を用いて3つのモダリティを統合する。
HARDVSおよびPokerEventデータセットに関する総合的な実験は、提案したSAFEモデルの有効性を完全に裏付けるものである。
ソースコードはhttps://github.com/Event-AHU/SAFE_LargeVLMで公開されている。
関連論文リスト
- SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Unleashing the Power of CNN and Transformer for Balanced RGB-Event Video
Recognition [43.52320791818535]
TSCFormer と呼ばれる新しい RGB-Event ベースの認識フレームワークを提案する。
主に、バックボーンネットワークとしてCNNを採用し、まずRGBとイベントデータをエンコードします。
両方のモダリティの間のグローバルな長距離関係をうまく捉え、モデルアーキテクチャ全体の単純さを維持します。
論文 参考訳(メタデータ) (2023-12-18T11:58:03Z) - A brief introduction to a framework named Multilevel Guidance-Exploration Network [23.794585834150983]
本稿では,Multilevel Guidance-Exploration Network(MGENet)と呼ばれる新しいフレームワークを提案する。
具体的には、まず骨格キーポイントを入力とし、RGBエンコーダを誘導する学習済み正規化フローを用いて、未知のRGBフレームを入力として取り込んで、動作遅延特徴を探索する。
提案手法は,上海技術とUBnormalデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-07T08:20:07Z) - SSTFormer: Bridging Spiking Neural Network and Memory Support
Transformer for Frame-Event based Recognition [42.118434116034194]
本稿では,RGBフレームとイベントストリームを同時に融合してパターンを認識することを提案する。
RGB-Eventベースの分類データセットが不足しているため、大規模なPokerEventデータセットも提案する。
論文 参考訳(メタデータ) (2023-08-08T16:15:35Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。