論文の概要: EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge
- arxiv url: http://arxiv.org/abs/2306.08657v1
- Date: Wed, 14 Jun 2023 17:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:49:56.978914
- Title: EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge
- Title(参考訳): EMERSK -- 状況知識を用いた説明可能なマルチモーダル感情認識
- Authors: Mijanur Palash, Bharat Bhargava
- Abstract要約: 状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic emotion recognition has recently gained significant attention due
to the growing popularity of deep learning algorithms. One of the primary
challenges in emotion recognition is effectively utilizing the various cues
(modalities) available in the data. Another challenge is providing a proper
explanation of the outcome of the learning.To address these challenges, we
present Explainable Multimodal Emotion Recognition with Situational Knowledge
(EMERSK), a generalized and modular system for human emotion recognition and
explanation using visual information. Our system can handle multiple
modalities, including facial expressions, posture, and gait, in a flexible and
modular manner. The network consists of different modules that can be added or
removed depending on the available data. We utilize a two-stream network
architecture with convolutional neural networks (CNNs) and encoder-decoder
style attention mechanisms to extract deep features from face images.
Similarly, CNNs and recurrent neural networks (RNNs) with Long Short-term
Memory (LSTM) are employed to extract features from posture and gait data. We
also incorporate deep features from the background as contextual information
for the learning process. The deep features from each module are fused using an
early fusion network. Furthermore, we leverage situational knowledge derived
from the location type and adjective-noun pair (ANP) extracted from the scene,
as well as the spatio-temporal average distribution of emotions, to generate
explanations. Ablation studies demonstrate that each sub-network can
independently perform emotion recognition, and combining them in a multimodal
approach significantly improves overall recognition performance. Extensive
experiments conducted on various benchmark datasets, including GroupWalk,
validate the superior performance of our approach compared to other
state-of-the-art methods.
- Abstract(参考訳): 近年,ディープラーニングアルゴリズムの普及により,感情の自動認識が注目されている。
感情認識における主な課題の1つは、データで利用可能な様々な手がかり(モダリティ)を効果的に活用することである。
もう一つの課題は、学習結果の適切な説明を提供することであり、これらの課題に対処するために、人間の感情認識と視覚情報を用いた説明のための一般化されたモジュールシステムEMERSK(Explainable Multimodal Emotion Recognition with situational Knowledge)を提案する。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
ネットワークは、利用可能なデータに応じて追加または削除できるさまざまなモジュールで構成されている。
畳み込みニューラルネットワーク(cnns)とエンコーダ-デコーダスタイルの注意機構を備えた2ストリームネットワークアーキテクチャを用いて,顔画像から深い特徴を抽出する。
同様に、長い短期記憶(lstm)を持つcnnとリカレントニューラルネットワーク(rnn)を用いて、姿勢や歩行データから特徴を抽出する。
また、背景からの深い機能を学習プロセスのコンテキスト情報として取り入れています。
各モジュールの深い機能は、初期のフュージョンネットワークを使って融合される。
さらに,シーンから抽出した位置タイプと形容詞・名詞ペア(anp),感情の時空間的平均分布から得られた状況知識を活用し,説明を生成する。
アブレーション研究は、各サブネットワークが独立して感情認識を行い、それらをマルチモーダルアプローチで組み合わせることで、全体的な認識性能が著しく向上することを示した。
GroupWalkを含む様々なベンチマークデータセットで実施された大規模な実験は、他の最先端手法と比較して、我々のアプローチの優れた性能を検証する。
関連論文リスト
- Apprenticeship-Inspired Elegance: Synergistic Knowledge Distillation Empowers Spiking Neural Networks for Efficient Single-Eye Emotion Recognition [53.359383163184425]
本稿では, 効率的な単一眼球運動認識タスクに適した, マルチモーダル・シナジスティック知識蒸留方式を提案する。
この方法では、軽量で単調な学生スパイクニューラルネットワーク(SNN)が、イベントフレームマルチモーダル教師ネットワークから豊富な知識を抽出することができる。
論文 参考訳(メタデータ) (2024-06-20T07:24:47Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - A Contextualized Real-Time Multimodal Emotion Recognition for
Conversational Agents using Graph Convolutional Networks in Reinforcement
Learning [0.800062359410795]
強化学習(conER-GRL)を用いたグラフ畳み込みネットワークを用いた文脈的感情認識のための新しいパラダイムを提案する。
会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。
このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。
論文 参考訳(メタデータ) (2023-10-24T14:31:17Z) - Versatile audio-visual learning for emotion recognition [28.26077129002198]
本研究では,非モーダル・マルチモーダルシステムを扱うための多目的音声視覚学習フレームワークを提案する。
我々は,この効果的な表現学習を,音声-視覚的共有層,共有層上の残差接続,および非モーダル再構成タスクで実現した。
特に、VAVLは、MSP-IMPROVコーパスの感情予測タスクにおいて、新しい最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-05-12T03:13:37Z) - GMSS: Graph-Based Multi-Task Self-Supervised Learning for EEG Emotion
Recognition [48.02958969607864]
本稿では,脳波感情認識のためのグラフベースマルチタスク自己教師学習モデル(GMSS)を提案する。
複数のタスクから同時に学習することで、GMSSはすべてのタスクをキャプチャする表現を見つけることができる。
SEED、SEED-IV、MPEDデータセットの実験により、提案モデルが脳波の感情信号に対するより差別的で一般的な特徴を学習する際、顕著な利点があることが示されている。
論文 参考訳(メタデータ) (2022-04-12T03:37:21Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Interpretability for Multimodal Emotion Recognition using Concept
Activation Vectors [0.0]
概念活性化ベクトル(CAV)を用いた感情認識におけるニューラルネットワークの解釈可能性の問題に対処する。
Emotion AI特有の人間理解可能な概念を定義し、広く使われているIEMOCAPマルチモーダルデータベースにマッピングする。
次に,2方向コンテキストLSTM(BC-LSTM)ネットワークの複数の層において,提案する概念の影響を評価する。
論文 参考訳(メタデータ) (2022-02-02T15:02:42Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。