論文の概要: Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations
- arxiv url: http://arxiv.org/abs/2312.06337v1
- Date: Mon, 11 Dec 2023 12:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:41:47.998581
- Title: Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations
- Title(参考訳): 会話におけるマルチモーダル感情認識のための深層不均衡学習
- Authors: Tao Meng, Yuntao Shou, Wei Ai, Nan Yin, Keqin Li
- Abstract要約: 会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
- 参考スコア(独自算出の注目度): 15.705757672984662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main task of Multimodal Emotion Recognition in Conversations (MERC) is to
identify the emotions in modalities, e.g., text, audio, image and video, which
is a significant development direction for realizing machine intelligence.
However, many data in MERC naturally exhibit an imbalanced distribution of
emotion categories, and researchers ignore the negative impact of imbalanced
data on emotion recognition. To tackle this problem, we systematically analyze
it from three aspects: data augmentation, loss sensitivity, and sampling
strategy, and propose the Class Boundary Enhanced Representation Learning
(CBERL) model. Concretely, we first design a multimodal generative adversarial
network to address the imbalanced distribution of {emotion} categories in raw
data. Secondly, a deep joint variational autoencoder is proposed to fuse
complementary semantic information across modalities and obtain discriminative
feature representations. Finally, we implement a multi-task graph neural
network with mask reconstruction and classification optimization to solve the
problem of overfitting and underfitting in class boundary learning, and achieve
cross-modal emotion recognition. We have conducted extensive experiments on the
IEMOCAP and MELD benchmark datasets, and the results show that CBERL has
achieved a certain performance improvement in the effectiveness of emotion
recognition. Especially on the minority class fear and disgust emotion labels,
our model improves the accuracy and F1 value by 10% to 20%.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(Multimodal Emotion Recognition in Conversations, MERC)の主な課題は、機械知性を実現するための重要な開発方向である、テキスト、音声、画像、ビデオなどのモダリティの感情を特定することである。
しかしながら、mercの多くのデータは自然に感情カテゴリの不均衡分布を示し、研究者は感情認識に対する不均衡データの負の影響を無視している。
この問題に対処するために,データ拡張,損失感度,サンプリング戦略という3つの側面から体系的に解析し,クラス境界強化表現学習(cberl)モデルを提案する。
具体的には,まず,原データにおける<emotion} カテゴリの不均衡な分布に対処するために,マルチモーダル生成型逆ネットワークを設計した。
次に, 相補的意味情報をモダリティ間で融合し, 識別的特徴表現を得るために, 深い関節変分オートエンコーダを提案する。
最後に,マスク再構成と分類最適化によるマルチタスクグラフニューラルネットワークを実装し,クラス境界学習における過剰フィッティングと不適合の問題を解決し,クロスモーダル感情認識を実現する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
特にマイノリティクラスの恐怖と嫌悪感のラベルでは,モデルが精度とf1値を10%から20%向上させる。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - M2R2: Missing-Modality Robust emotion Recognition framework with
iterative data augmentation [6.962213869946514]
学習された共通表現による反復的データ拡張で感情認識モデルを訓練するミス・モダリティ・ロバスト感情認識(M2R2)を提案する。
Party Attentive Network (PANet)は、すべての話者の状態と状況を追跡する感情を分類するために設計された。
論文 参考訳(メタデータ) (2022-05-05T09:16:31Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。