論文の概要: Unifying EEG and Speech for Emotion Recognition: A Two-Step Joint Learning Framework for Handling Missing EEG Data During Inference
- arxiv url: http://arxiv.org/abs/2503.18964v1
- Date: Thu, 20 Mar 2025 10:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:27.843794
- Title: Unifying EEG and Speech for Emotion Recognition: A Two-Step Joint Learning Framework for Handling Missing EEG Data During Inference
- Title(参考訳): 感情認識のための脳波と音声の統一:脳波データの推論処理のための2段階共同学習フレームワーク
- Authors: Upasana Tiwari, Rupayan Chakraborty, Sunil Kumar Kopparapu,
- Abstract要約: 音声はAERにとって最も直接的で直感的なモダリティであるが、人間によって意図的に偽造されるため信頼できない。
脳波のような生理学的モダリティはより信頼性が高く、偽造することは不可能である。
本稿では,2段階のジョイントマルチモーダル学習手法 (JMML) を提案する。
- 参考スコア(独自算出の注目度): 11.616177783449313
- License:
- Abstract: Computer interfaces are advancing towards using multi-modalities to enable better human-computer interactions. The use of automatic emotion recognition (AER) can make the interactions natural and meaningful thereby enhancing the user experience. Though speech is the most direct and intuitive modality for AER, it is not reliable because it can be intentionally faked by humans. On the other hand, physiological modalities like EEG, are more reliable and impossible to fake. However, use of EEG is infeasible for realistic scenarios usage because of the need for specialized recording setup. In this paper, one of our primary aims is to ride on the reliability of the EEG modality to facilitate robust AER on the speech modality. Our approach uses both the modalities during training to reliably identify emotion at the time of inference, even in the absence of the more reliable EEG modality. We propose, a two-step joint multi-modal learning approach (JMML) that exploits both the intra- and inter- modal characteristics to construct emotion embeddings that enrich the performance of AER. In the first step, using JEC-SSL, intra-modal learning is done independently on the individual modalities. This is followed by an inter-modal learning using the proposed extended variant of deep canonically correlated cross-modal autoencoder (E-DCC-CAE). The approach learns the joint properties of both the modalities by mapping them into a common representation space, such that the modalities are maximally correlated. These emotion embeddings, hold properties of both the modalities there by enhancing the performance of ML classifier used for AER. Experimental results show the efficacy of the proposed approach. To best of our knowledge, this is the first attempt to combine speech and EEG with joint multi-modal learning approach for reliable AER.
- Abstract(参考訳): コンピュータインターフェースは、より優れた人間-コンピュータインタラクションを実現するために、マルチモーダルの使用に向けて進んでいる。
自動感情認識(AER)を使用することで、インタラクションを自然かつ意味のあるものにすることで、ユーザエクスペリエンスを向上させることができる。
音声はAERにとって最も直接的で直感的なモダリティであるが、人間によって意図的に偽造されるため信頼できない。
一方、脳波のような生理的モダリティはより信頼性が高く、偽造は不可能である。
しかし、特別な記録設定を必要とするため、現実的なシナリオではEEGの使用は不可能である。
本稿では,脳波モダリティの信頼性に乗じて,音声モダリティに頑健なAERを実現することを目的とする。
我々のアプローチでは、より信頼性の高い脳波モダリティが欠如していても、トレーニング中に両方のモダリティを使用して、推論時に感情を確実に識別する。
AERの性能を向上する感情埋め込みを構築するために、モーダル内特性とモーダル間特性の両方を利用する2段階のジョイントマルチモーダル学習手法(JMML)を提案する。
最初のステップでは、JEC-SSLを使用して、個別のモダリティに依存しないモーダル内学習を行う。
これに続いて、提案した深部正準相関型クロスモーダルオートエンコーダ(E-DCC-CAE)を用いてモーダル間学習を行う。
このアプローチは、モダリティが極大に相関しているような共通の表現空間にそれらのモダリティをマッピングすることで、両方のモダリティのジョイント特性を学習する。
これらの感情埋め込みは、AERに使用されるML分類器の性能を高めることで、両方のモダリティの特性を保持する。
実験の結果,提案手法の有効性が示された。
我々の知る限り、これは音声と脳波を、信頼できるAERのための共同マルチモーダル学習アプローチと組み合わせる最初の試みである。
関連論文リスト
- Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors [63.194053817609024]
視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。
EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。
具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-08T04:53:55Z) - Emotion-Agent: Unsupervised Deep Reinforcement Learning with Distribution-Prototype Reward for Continuous Emotional EEG Analysis [2.1645626994550664]
連続脳波(EEG)信号は、感情脳-コンピュータインターフェース(aBCI)の応用に広く用いられている。
脳波信号から関連性および情報的感情モーメントを自動的に識別する,非教師なしの深層強化学習フレームワーク Emotion-Agent を提案する。
Emotion-AgentはPPO(Proximal Policy Optimization)を用いて訓練され、安定かつ効率的な収束を実現する。
論文 参考訳(メタデータ) (2024-08-22T04:29:25Z) - Apprenticeship-Inspired Elegance: Synergistic Knowledge Distillation Empowers Spiking Neural Networks for Efficient Single-Eye Emotion Recognition [53.359383163184425]
本稿では, 効率的な単一眼球運動認識タスクに適した, マルチモーダル・シナジスティック知識蒸留方式を提案する。
この方法では、軽量で単調な学生スパイクニューラルネットワーク(SNN)が、イベントフレームマルチモーダル教師ネットワークから豊富な知識を抽出することができる。
論文 参考訳(メタデータ) (2024-06-20T07:24:47Z) - Joint Contrastive Learning with Feature Alignment for Cross-Corpus EEG-based Emotion Recognition [2.1645626994550664]
我々は,クロスコーパス脳波に基づく感情認識に対処するために,特徴アライメントを用いた新しいコントラスト学習フレームワークを提案する。
事前学習段階では、脳波信号の一般化可能な時間周波数表現を特徴付けるために、共同領域コントラスト学習戦略を導入する。
微調整の段階では、JCFAは脳電極間の構造的接続を考慮した下流タスクと共に洗練される。
論文 参考訳(メタデータ) (2024-04-15T08:21:17Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Attentive Cross-modal Connections for Deep Multimodal Wearable-based
Emotion Recognition [7.559720049837459]
本稿では、畳み込みニューラルネットワーク間で情報を共有するための、新しい注意深いクロスモーダル接続を提案する。
具体的には、EDAとECGの中間表現を共有することにより、感情分類を改善する。
実験の結果,提案手法は強いマルチモーダル表現を学習し,多くのベースライン法より優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-04T18:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。