論文の概要: MMER: Multimodal Multi-task learning for Emotion Recognition in Spoken
Utterances
- arxiv url: http://arxiv.org/abs/2203.16794v2
- Date: Fri, 1 Apr 2022 04:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 11:06:34.751982
- Title: MMER: Multimodal Multi-task learning for Emotion Recognition in Spoken
Utterances
- Title(参考訳): MMER:音声発話における感情認識のためのマルチモーダルマルチタスク学習
- Authors: Harshvardhan Srivastava, Sreyan Ghosh and S. Umesh
- Abstract要約: 感情認識は、人間の発話を異なる感情カテゴリーに分類することを目的としている。
本稿では,ER を個別発話から分離したマルチモーダルなマルチタスク学習手法を提案する。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Emotion Recognition (ER) aims to classify human utterances into different
emotion categories. Based on early-fusion and self-attention-based multimodal
interaction between text and acoustic modalities, in this paper, we propose a
multimodal multitask learning approach for ER from individual utterances in
isolation. Experiments on the IEMOCAP benchmark show that our proposed model
performs better than our re-implementation of state-of-the-art and achieves
better performance than all other unimodal and multimodal approaches in
literature. In addition, strong baselines and ablation studies prove the
effectiveness of our proposed approach. We make all our codes publicly
available on GitHub.
- Abstract(参考訳): 感情認識(ER)は、人間の発話を異なる感情カテゴリーに分類することを目的としている。
本稿では,テキストと音響モダリティの早期融合と自己注意に基づくマルチモーダル相互作用をベースとして,ERを個別発話から分離したマルチモーダルマルチタスク学習手法を提案する。
IEMOCAPベンチマーク実験により,提案手法は最先端技術の再実装よりも優れた性能を示し,文学における他の非モーダル・マルチモーダル手法よりも優れた性能を示す。
さらに, 提案手法の有効性を検証し, 高いベースラインとアブレーション研究を行った。
すべてのコードをgithubで公開しています。
関連論文リスト
- What Factors Affect Multi-Modal In-Context Learning? An In-Depth Exploration [59.855712519568904]
本稿では,MM-ICLの中核となる3つのステップについて検討する。
本研究は, 実演検索におけるマルチモーダルレトリバーの必要性と, 演目間注文よりも演目内注文が重要であることを明らかにする。
論文 参考訳(メタデータ) (2024-10-27T15:37:51Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - A Multi-Task, Multi-Modal Approach for Predicting Categorical and
Dimensional Emotions [0.0]
分類的・次元的な感情を予測するマルチタスク・マルチモーダルシステムを提案する。
その結果,2種類の感情の相互規則化の重要性が強調された。
論文 参考訳(メタデータ) (2023-12-31T16:48:03Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition [18.38506185117551]
音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。
我々は,Multi-perspective Fusion Search Network (MFSN)と呼ばれる,SERにおける知識の事前学習のための新しいフレームワークを提案する。
包括性を考慮して、音声知識をテキスト関連感情コンテンツ(TEC)と音声関連感情コンテンツ(SEC)に分割する。
論文 参考訳(メタデータ) (2023-06-12T16:40:07Z) - An Empirical Study and Improvement for Speech Emotion Recognition [22.250228893114066]
マルチモーダル音声の感情認識は、音声とテキストから話者の感情を検出することを目的としている。
本研究では、音声とテキストのモダリティ情報を融合する方法という、シンプルながら重要な問題について考察する。
実験により,本手法はIEMOCAPデータセット上で得られた新しい最先端結果を示す。
論文 参考訳(メタデータ) (2023-04-08T03:24:06Z) - UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion
Recognition [32.34485263348587]
マルチモーダル感情分析(MSA)と会話における感情認識(ERC)は、コンピュータが人間の行動を理解する上で重要な研究課題である。
我々は,MSAとERCタスクを特徴,ラベル,モデルから統合するマルチモーダル感情知識共有フレームワーク(UniMSE)を提案する。
我々は、統語的・意味的なレベルでモダリティ融合を行い、感情と感情の差異と一貫性をよりよく捉えるために、モダリティとサンプルの対比学習を導入する。
論文 参考訳(メタデータ) (2022-11-21T08:46:01Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。