論文の概要: Interpretable Multimodal Emotion Recognition using Hybrid Fusion of
Speech and Image Data
- arxiv url: http://arxiv.org/abs/2208.11868v1
- Date: Thu, 25 Aug 2022 04:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 14:04:33.814787
- Title: Interpretable Multimodal Emotion Recognition using Hybrid Fusion of
Speech and Image Data
- Title(参考訳): 音声と画像のハイブリッド融合による解釈可能なマルチモーダル感情認識
- Authors: Puneet Kumar, Sarthak Malik and Balasubramanian Raman
- Abstract要約: 特定の感情のクラスの予測に繋がる重要な音声・画像の特徴を識別する新しい解釈可能性技術を開発した。
提案システムは感情認識の精度を83.29%向上させた。
- 参考スコア(独自算出の注目度): 15.676632465869346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a multimodal emotion recognition system based on hybrid
fusion that classifies the emotions depicted by speech utterances and
corresponding images into discrete classes. A new interpretability technique
has been developed to identify the important speech & image features leading to
the prediction of particular emotion classes. The proposed system's
architecture has been determined through intensive ablation studies. It fuses
the speech & image features and then combines speech, image, and intermediate
fusion outputs. The proposed interpretability technique incorporates the divide
& conquer approach to compute shapely values denoting each speech & image
feature's importance. We have also constructed a large-scale dataset (IIT-R
SIER dataset), consisting of speech utterances, corresponding images, and class
labels, i.e., 'anger,' 'happy,' 'hate,' and 'sad.' The proposed system has
achieved 83.29% accuracy for emotion recognition. The enhanced performance of
the proposed system advocates the importance of utilizing complementary
information from multiple modalities for emotion recognition.
- Abstract(参考訳): 本稿では,音声発話と対応する画像によって表される感情を離散クラスに分類するハイブリッド融合に基づくマルチモーダル感情認識システムを提案する。
特定の感情クラスの予測につながる重要な音声・画像の特徴を識別する新しい解釈可能性技術を開発した。
提案システムのアーキテクチャは集中的アブレーション研究によって決定されている。
音声と画像の特徴を融合させ、音声、画像、中間融合出力を組み合わせる。
提案手法は,各音声・画像特徴量の重要性を示す形状値を求める分割・征服手法を取り入れたものである。
また,大規模データセット(iit-r sierデータセット)を構築し,音声発話,対応画像,クラスラベル,すなわち"anger","happy","hate","sad"からなる。
提案システムは感情認識の精度を83.29%向上させた。
提案システムの性能向上は,感情認識に複数のモダリティからの補完的情報を活用することの重要性を示唆する。
関連論文リスト
- Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - Interpretable Multimodal Emotion Recognition using Facial Features and
Physiological Signals [16.549488750320336]
視覚的な顔の特徴や、入力ビデオから抽出したr信号から情報を融合することで、感情理解のためのマルチモーダルフレームワークを導入する。
置換重要度分析に基づく解釈可能性技術も実装されている。
論文 参考訳(メタデータ) (2023-06-05T12:57:07Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - VISTANet: VIsual Spoken Textual Additive Net for Interpretable Multimodal Emotion Recognition [21.247650660908484]
本稿では、VISTANet(Visual Textual Additive Net)というマルチモーダル感情認識システムを提案する。
VISTANetは、早期と後期の融合のハイブリッドを用いて、画像、音声、テキストのモダリティから情報を融合する。
KAAP技術は、特定の感情のクラスを予測するために、各モダリティとそれに対応する特徴の寄与を計算する。
論文 参考訳(メタデータ) (2022-08-24T11:35:51Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Interpretable Image Emotion Recognition: A Domain Adaptation Approach Using Facial Expressions [11.808447247077902]
本稿では,ジェネリックイメージ中の感情を識別するための特徴に基づくドメイン適応手法を提案する。
これは、事前訓練されたモデルと、画像感情認識(IER)のための十分に注釈付けされたデータセットの限られた可用性の課題に対処する。
提案されたIERシステムは、IAPSaデータセットの60.98%、ArtPhotoデータセットの58.86%、FIデータセットの69.13%、EMOTICデータセットの58.06%の感情分類精度を示した。
論文 参考訳(メタデータ) (2020-11-17T02:55:16Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。