論文の概要: Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss
- arxiv url: http://arxiv.org/abs/2207.11482v1
- Date: Sat, 23 Jul 2022 10:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:04:21.918661
- Title: Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss
- Title(参考訳): モダリティ非教師付きコントラスト損失を用いたマルチモーダル感情認識
- Authors: Riccardo Franceschini and Enrico Fini and Cigdem Beyan and Alessandro
Conti and Federica Arrigoni and Elisa Ricci
- Abstract要約: マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
- 参考スコア(独自算出の注目度): 80.79641247882012
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Emotion recognition is involved in several real-world applications. With an
increase in available modalities, automatic understanding of emotions is being
performed more accurately. The success in Multimodal Emotion Recognition (MER),
primarily relies on the supervised learning paradigm. However, data annotation
is expensive, time-consuming, and as emotion expression and perception depends
on several factors (e.g., age, gender, culture) obtaining labels with a high
reliability is hard. Motivated by these, we focus on unsupervised feature
learning for MER. We consider discrete emotions, and as modalities text, audio
and vision are used. Our method, as being based on contrastive loss between
pairwise modalities, is the first attempt in MER literature. Our end-to-end
feature learning approach has several differences (and advantages) compared to
existing MER methods: i) it is unsupervised, so the learning is lack of data
labelling cost; ii) it does not require data spatial augmentation, modality
alignment, large number of batch size or epochs; iii) it applies data fusion
only at inference; and iv) it does not require backbones pre-trained on emotion
recognition task. The experiments on benchmark datasets show that our method
outperforms several baseline approaches and unsupervised learning methods
applied in MER. Particularly, it even surpasses a few supervised MER
state-of-the-art.
- Abstract(参考訳): 感情認識はいくつかの現実世界の応用に関わっている。
利用可能なモダリティの増加に伴い、感情の自動理解がより正確に行われている。
マルチモーダル感情認識(MER)の成功は主に教師付き学習パラダイムに依存している。
しかし、データアノテーションは高価で時間がかかり、感情表現や知覚は、信頼性の高いラベルを取得するためのいくつかの要因(年齢、性別、文化など)に依存するため、難しい。
そこで我々は,MERの教師なし機能学習に焦点をあてた。
我々は離散的な感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
我々のエンドツーエンドの特徴学習アプローチは、既存のMER手法といくつかの違い(および利点)がある。
一 監督されていないため、学習は、データラベリングコストの欠如である。
二 データの空間的拡張、モダリティアライメント、多数のバッチサイズ又はエポックを必要としないこと。
三 推論においてのみ、データ融合を適用すること。
iv)感情認識タスクで事前学習されたバックボーンを必要としない。
ベンチマークデータセットを用いた実験により,本手法はMERに適用されたいくつかのベースラインアプローチや教師なし学習方法よりも優れていた。
特に、いくつかの監督されたMERを超越している。
関連論文リスト
- Leveraging Retrieval Augment Approach for Multimodal Emotion Recognition Under Missing Modalities [16.77191718894291]
我々は,Multimodal Emotion Recognition(RAMER)の欠如に対する検索機能強化の新たな枠組みを提案する。
我々のフレームワークは、欠落したモダリティMERタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-09-19T02:31:12Z) - Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model [5.301672905886949]
本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。
MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:17:18Z) - Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset [74.74686464187474]
Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU)は、マルチモーダルな会話履歴に現れる意味情報をデコードすることを目的としている。
MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。
MC-EIUデータセットは,7つの感情カテゴリー,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および英語とマンダリンの2つの言語を特徴とする。
論文 参考訳(メタデータ) (2024-07-03T01:56:00Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Contrastive Unsupervised Learning for Speech Emotion Recognition [22.004507213531102]
音声感情認識(SER)は、より自然な人間と機械のコミュニケーションを可能にする重要な技術である。
コントラスト予測符号化 (cpc) 法はラベルなしのデータセットから有意な表現を学習できることを示す。
論文 参考訳(メタデータ) (2021-02-12T06:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。