論文の概要: Interpretability for Multimodal Emotion Recognition using Concept
Activation Vectors
- arxiv url: http://arxiv.org/abs/2202.01072v1
- Date: Wed, 2 Feb 2022 15:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 17:39:02.884472
- Title: Interpretability for Multimodal Emotion Recognition using Concept
Activation Vectors
- Title(参考訳): 概念活性化ベクトルを用いたマルチモーダル感情認識の解釈可能性
- Authors: Ashish Ramayee Asokan, Nidarshan Kumar, Anirudh Venkata Ragam, Shylaja
S Sharath
- Abstract要約: 概念活性化ベクトル(CAV)を用いた感情認識におけるニューラルネットワークの解釈可能性の問題に対処する。
Emotion AI特有の人間理解可能な概念を定義し、広く使われているIEMOCAPマルチモーダルデータベースにマッピングする。
次に,2方向コンテキストLSTM(BC-LSTM)ネットワークの複数の層において,提案する概念の影響を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Emotion Recognition refers to the classification of input video
sequences into emotion labels based on multiple input modalities (usually
video, audio and text). In recent years, Deep Neural networks have shown
remarkable performance in recognizing human emotions, and are on par with
human-level performance on this task. Despite the recent advancements in this
field, emotion recognition systems are yet to be accepted for real world setups
due to the obscure nature of their reasoning and decision-making process. Most
of the research in this field deals with novel architectures to improve the
performance for this task, with a few attempts at providing explanations for
these models' decisions. In this paper, we address the issue of
interpretability for neural networks in the context of emotion recognition
using Concept Activation Vectors (CAVs). To analyse the model's latent space,
we define human-understandable concepts specific to Emotion AI and map them to
the widely-used IEMOCAP multimodal database. We then evaluate the influence of
our proposed concepts at multiple layers of the Bi-directional Contextual LSTM
(BC-LSTM) network to show that the reasoning process of neural networks for
emotion recognition can be represented using human-understandable concepts.
Finally, we perform hypothesis testing on our proposed concepts to show that
they are significant for interpretability of this task.
- Abstract(参考訳): マルチモーダル感情認識(multimodal emotion recognition)は、入力されたビデオシーケンスを複数の入力モダリティ(通常、ビデオ、オーディオ、テキスト)に基づいて感情ラベルに分類することを指す。
近年、ディープニューラルネットワークは人間の感情を認識する上で顕著な性能を示しており、このタスクにおける人間レベルのパフォーマンスと同等である。
この分野での最近の進歩にもかかわらず、感情認識システムは、その推論と意思決定プロセスのあいまいな性質のため、現実の環境では受け入れられていない。
この分野での研究のほとんどは、このタスクのパフォーマンスを改善するための新しいアーキテクチャを扱い、これらのモデルの決定を説明するためのいくつかの試みである。
本稿では,概念活性化ベクトル(CAV)を用いた感情認識におけるニューラルネットワークの解釈可能性の問題に対処する。
モデルの潜在空間を分析するために、感情AI特有の人間理解可能な概念を定義し、広く使われているIEMOCAPマルチモーダルデータベースにマッピングする。
次に,BC-LSTM(Bi-directional Contextual LSTM)ネットワークの複数層において提案した概念の影響を評価し,人間の理解可能な概念を用いてニューラルネットワークの推論過程を表現可能であることを示す。
最後に,提案した概念の仮説テストを行い,この課題の解釈可能性に重要であることを示す。
関連論文リスト
- EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion Recognition from the perspective of Activity Recognition [0.0]
人間の感情状態、行動、反応を現実世界の環境に適応させることは、潜伏した連続した次元を用いて達成できる。
感情認識システムが現実のモバイルおよびコンピューティングデバイスにデプロイされ統合されるためには、世界中の収集されたデータを考慮する必要がある。
本稿では,注目機構を備えた新しい3ストリームエンドツーエンドのディープラーニング回帰パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-24T18:53:57Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。