論文の概要: Hybrid Fusion Based Interpretable Multimodal Emotion Recognition with
Insufficient Labelled Data
- arxiv url: http://arxiv.org/abs/2208.11450v1
- Date: Wed, 24 Aug 2022 11:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:52:45.861955
- Title: Hybrid Fusion Based Interpretable Multimodal Emotion Recognition with
Insufficient Labelled Data
- Title(参考訳): ラベルデータ不足によるハイブリッド融合型マルチモーダル感情認識
- Authors: Puneet Kumar, Sarthak Malik and Balasubramanian Raman
- Abstract要約: VISTA Netは、早期融合と後期融合のハイブリッドを用いて、画像、音声、テキストのモダリティから情報を融合する。
KAAP技術は、特定の感情のクラスを予測するために、各モダリティとそれに対応する特徴の寄与を計算する。
VISTAネットは、画像、音声、テキストのモダリティを考慮して、95.99%の感情認識精度を達成している。
- 参考スコア(独自算出の注目度): 15.676632465869346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a multimodal emotion recognition system, VIsual Spoken
Textual Additive Net (VISTA Net), to classify the emotions reflected by a
multimodal input containing image, speech, and text into discrete classes. A
new interpretability technique, K-Average Additive exPlanation (KAAP), has also
been developed to identify the important visual, spoken, and textual features
leading to predicting a particular emotion class. The VISTA Net fuses the
information from image, speech & text modalities using a hybrid of early and
late fusion. It automatically adjusts the weights of their intermediate outputs
while computing the weighted average without human intervention. The KAAP
technique computes the contribution of each modality and corresponding features
toward predicting a particular emotion class. To mitigate the insufficiency of
multimodal emotion datasets labeled with discrete emotion classes, we have
constructed a large-scale IIT-R MMEmoRec dataset consisting of real-life
images, corresponding speech & text, and emotion labels ('angry,' 'happy,'
'hate,' and 'sad.'). The VISTA Net has resulted in 95.99% emotion recognition
accuracy on considering image, speech, and text modalities, which is better
than the performance on considering the inputs of any one or two modalities.
- Abstract(参考訳): 本稿では,画像,音声,テキストを含むマルチモーダル入力に反映される感情を離散クラスに分類するマルチモーダル感情認識システムであるvisual spoken textual additive net (vista net)を提案する。
K-Average Additive exPlanation (KAAP) と呼ばれる新しい解釈可能性技術も開発され、視覚的、音声的、テキスト的特徴が特定の感情のクラスを予測している。
VISTAネットは、早期と後期の融合のハイブリッドを用いて、画像、音声、テキストのモダリティから情報を融合する。
中間出力の重みを自動的に調整し、人間の介入なしに重み付け平均を計算する。
KAAP技術は、特定の感情のクラスを予測するために、各モダリティと対応する特徴の寄与を計算する。
離散感情クラスでラベル付けされたマルチモーダル感情データセットの不十分さを軽減するために,実生活画像,対応する音声・テキスト,感情ラベル(「angry」,「happy」,「hate」,「sad」)からなる大規模iit-r mmemorecデータセットを構築した。
vista netでは、画像、音声、テキストのモダリティを考慮して95.99%の感情認識精度が得られ、これは1つまたは2つのモダリティの入力を考慮した場合のパフォーマンスよりも優れている。
関連論文リスト
- Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset [74.74686464187474]
Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU)は、マルチモーダルな会話履歴に現れる意味情報をデコードすることを目的としている。
MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。
MC-EIUデータセットは,7つの感情カテゴリー,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および英語とマンダリンの2つの言語を特徴とする。
論文 参考訳(メタデータ) (2024-07-03T01:56:00Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Interpretable Multimodal Emotion Recognition using Hybrid Fusion of
Speech and Image Data [15.676632465869346]
特定の感情のクラスの予測に繋がる重要な音声・画像の特徴を識別する新しい解釈可能性技術を開発した。
提案システムは感情認識の精度を83.29%向上させた。
論文 参考訳(メタデータ) (2022-08-25T04:43:34Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。