論文の概要: MMER: Multimodal Multi-task Learning for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2203.16794v5
- Date: Sat, 3 Jun 2023 21:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 05:31:28.316476
- Title: MMER: Multimodal Multi-task Learning for Speech Emotion Recognition
- Title(参考訳): MMER:音声感情認識のためのマルチモーダルマルチタスク学習
- Authors: Sreyan Ghosh and Utkarsh Tyagi and S Ramaneswaran and Harshvardhan
Srivastava and Dinesh Manocha
- Abstract要約: MMERは,音声認識のためのマルチモーダルマルチタスク学習手法である。
実際に、MMERはIEMOCAPベンチマークのベースラインと最先端のパフォーマンスをすべて達成します。
- 参考スコア(独自算出の注目度): 48.32879363033598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose MMER, a novel Multimodal Multi-task learning
approach for Speech Emotion Recognition. MMER leverages a novel multimodal
network based on early-fusion and cross-modal self-attention between text and
acoustic modalities and solves three novel auxiliary tasks for learning emotion
recognition from spoken utterances. In practice, MMER outperforms all our
baselines and achieves state-of-the-art performance on the IEMOCAP benchmark.
Additionally, we conduct extensive ablation studies and results analysis to
prove the effectiveness of our proposed approach.
- Abstract(参考訳): 本稿では,音声感情認識のためのマルチモーダルマルチタスク学習手法MMERを提案する。
MMERは、テキストと音響モダリティの早期融合と相互自己認識に基づく新しいマルチモーダルネットワークを活用し、音声発話から感情認識を学ぶための3つの新しい補助的タスクを解決する。
実際、MMERはすべてのベースラインを上回り、IEMOCAPベンチマークで最先端のパフォーマンスを達成する。
また,提案手法の有効性を証明するため,広範囲なアブレーション研究と結果分析を行った。
関連論文リスト
- What Factors Affect Multi-Modal In-Context Learning? An In-Depth Exploration [59.855712519568904]
本稿では,MM-ICLの中核となる3つのステップについて検討する。
本研究は, 実演検索におけるマルチモーダルレトリバーの必要性と, 演目間注文よりも演目内注文が重要であることを明らかにする。
論文 参考訳(メタデータ) (2024-10-27T15:37:51Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - A Multi-Task, Multi-Modal Approach for Predicting Categorical and
Dimensional Emotions [0.0]
分類的・次元的な感情を予測するマルチタスク・マルチモーダルシステムを提案する。
その結果,2種類の感情の相互規則化の重要性が強調された。
論文 参考訳(メタデータ) (2023-12-31T16:48:03Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition [18.38506185117551]
音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。
我々は,Multi-perspective Fusion Search Network (MFSN)と呼ばれる,SERにおける知識の事前学習のための新しいフレームワークを提案する。
包括性を考慮して、音声知識をテキスト関連感情コンテンツ(TEC)と音声関連感情コンテンツ(SEC)に分割する。
論文 参考訳(メタデータ) (2023-06-12T16:40:07Z) - An Empirical Study and Improvement for Speech Emotion Recognition [22.250228893114066]
マルチモーダル音声の感情認識は、音声とテキストから話者の感情を検出することを目的としている。
本研究では、音声とテキストのモダリティ情報を融合する方法という、シンプルながら重要な問題について考察する。
実験により,本手法はIEMOCAPデータセット上で得られた新しい最先端結果を示す。
論文 参考訳(メタデータ) (2023-04-08T03:24:06Z) - UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion
Recognition [32.34485263348587]
マルチモーダル感情分析(MSA)と会話における感情認識(ERC)は、コンピュータが人間の行動を理解する上で重要な研究課題である。
我々は,MSAとERCタスクを特徴,ラベル,モデルから統合するマルチモーダル感情知識共有フレームワーク(UniMSE)を提案する。
我々は、統語的・意味的なレベルでモダリティ融合を行い、感情と感情の差異と一貫性をよりよく捉えるために、モダリティとサンプルの対比学習を導入する。
論文 参考訳(メタデータ) (2022-11-21T08:46:01Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。