論文の概要: TACOformer:Token-channel compounded Cross Attention for Multimodal
Emotion Recognition
- arxiv url: http://arxiv.org/abs/2306.13592v2
- Date: Mon, 21 Aug 2023 16:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 23:27:19.406816
- Title: TACOformer:Token-channel compounded Cross Attention for Multimodal
Emotion Recognition
- Title(参考訳): TACOformer:マルチモーダル感情認識のためのTokenチャネル合成クロスアテンション
- Authors: Xinda Li
- Abstract要約: 本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。
具体的には,Token-chAnnel Compound (TACO) Cross Attentionというクロスアテンションモジュールを導入する。
また,脳波信号チャネルの空間分布に関する情報を保存するための2次元位置符号化手法を提案する。
- 参考スコア(独自算出の注目度): 0.951828574518325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, emotion recognition based on physiological signals has emerged as a
field with intensive research. The utilization of multi-modal, multi-channel
physiological signals has significantly improved the performance of emotion
recognition systems, due to their complementarity. However, effectively
integrating emotion-related semantic information from different modalities and
capturing inter-modal dependencies remains a challenging issue. Many existing
multimodal fusion methods ignore either token-to-token or channel-to-channel
correlations of multichannel signals from different modalities, which limits
the classification capability of the models to some extent. In this paper, we
propose a comprehensive perspective of multimodal fusion that integrates
channel-level and token-level cross-modal interactions. Specifically, we
introduce a unified cross attention module called Token-chAnnel COmpound (TACO)
Cross Attention to perform multimodal fusion, which simultaneously models
channel-level and token-level dependencies between modalities. Additionally, we
propose a 2D position encoding method to preserve information about the spatial
distribution of EEG signal channels, then we use two transformer encoders ahead
of the fusion module to capture long-term temporal dependencies from the EEG
signal and the peripheral physiological signal, respectively.
Subject-independent experiments on emotional dataset DEAP and Dreamer
demonstrate that the proposed model achieves state-of-the-art performance.
- Abstract(参考訳): 近年,生理的信号に基づく感情認識が,集中研究の分野として浮上している。
マルチモーダル・マルチチャネル生理信号の利用は,その相補性から感情認識システムの性能を著しく向上させた。
しかし、感情に関連したセマンティクス情報を異なるモダリティから効果的に統合し、モダリティ間の依存関係を捉えることは難しい課題である。
多くの既存のマルチモーダル融合法は、異なるモダリティのマルチチャネル信号のトークン対トケンまたはチャネル対チャネル相関を無視しており、モデルの分類能力はある程度制限されている。
本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。
具体的には,マルチモーダル融合を実現するために,token-channel compound (taco) と呼ばれる統一クロスアテンションモジュールを導入して,チャネルレベルとトークンレベルのモダリティ間の依存関係を同時にモデル化する。
さらに,脳波信号チャネルの空間分布に関する情報を保存する2次元位置符号化法を提案し,融合モジュールに先立つ2つのトランスエンコーダを用いて,脳波信号と周辺生理信号からの長期的時間依存性をそれぞれ捉える。
感情データセットDEAPとDreamerの被験者非依存実験は、提案モデルが最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Multimodal Latent Emotion Recognition from Micro-expression and
Physiological Signals [11.05207353295191]
本稿では,マルチモーダルデータの導入による潜在感情認識の精度向上のメリットを論じ,マイクロ・エクスプレッション(ME)と生理信号(PS)に着目した。
提案手法では,MEとPSを組み合わせた新しいマルチモーダル学習フレームワークを提案する。
実験の結果,提案手法は,重み付き融合法とガイド付注目モジュールにより,性能向上に寄与することがわかった。
論文 参考訳(メタデータ) (2023-08-23T14:17:44Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Transformer-based Self-supervised Multimodal Representation Learning for
Wearable Emotion Recognition [2.4364387374267427]
ウェアラブル感情認識のための新しい自己教師型学習(SSL)フレームワークを提案する。
本手法は様々な感情分類タスクにおいて最先端の結果を得た。
論文 参考訳(メタデータ) (2023-03-29T19:45:55Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional
Emotion Recognition [57.766837326063346]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Learning to Perform Downlink Channel Estimation in Massive MIMO Systems [72.76968022465469]
大規模マルチインプット・マルチアウトプット(MIMO)システムにおけるダウンリンク(DL)チャネル推定について検討する。
一般的なアプローチは、チャネル硬化によって動機付けられた推定値として平均値を使用することである。
本稿では2つの新しい推定法を提案する。
論文 参考訳(メタデータ) (2021-09-06T13:42:32Z) - HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network
for Multi-modal Emotion Recognition [9.293787425132344]
本稿では,感情認識のためのマルチモーダルな生理的信号を融合した2ストリームのヘテロジニアスグラフリカレントニューラルネットワークHetEmotionNetを提案する。
HetEmotionNetは空間時空間ストリームと空間時空間ストリームで構成される。
論文 参考訳(メタデータ) (2021-08-07T03:03:52Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z) - Low Rank Fusion based Transformers for Multimodal Sequences [9.507869508188266]
CMU-MOSEI, CMU-MOSI, IEMOCAPデータセットを用いたマルチモーダル知覚と感情認識の2つの手法を提案する。
我々のモデルはより少ないパラメータを持ち、より速く訓練し、多くの大規模な核融合ベースのアーキテクチャと相容れない性能を発揮する。
論文 参考訳(メタデータ) (2020-07-04T08:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。