Fugu-MT 論文翻訳(概要): MMER: Multimodal Multi-task Learning for Speech Emotion Recognition

論文の概要: MMER: Multimodal Multi-task Learning for Speech Emotion Recognition

arxiv url: http://arxiv.org/abs/2203.16794v5
Date: Sat, 3 Jun 2023 21:55:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 05:31:28.316476
Title: MMER: Multimodal Multi-task Learning for Speech Emotion Recognition
Title（参考訳）: MMER:音声感情認識のためのマルチモーダルマルチタスク学習
Authors: Sreyan Ghosh and Utkarsh Tyagi and S Ramaneswaran and Harshvardhan Srivastava and Dinesh Manocha
Abstract要約: MMERは,音声認識のためのマルチモーダルマルチタスク学習手法である。実際に、MMERはIEMOCAPベンチマークのベースラインと最先端のパフォーマンスをすべて達成します。
参考スコア（独自算出の注目度）: 48.32879363033598
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose MMER, a novel Multimodal Multi-task learning approach for Speech Emotion Recognition. MMER leverages a novel multimodal network based on early-fusion and cross-modal self-attention between text and acoustic modalities and solves three novel auxiliary tasks for learning emotion recognition from spoken utterances. In practice, MMER outperforms all our baselines and achieves state-of-the-art performance on the IEMOCAP benchmark. Additionally, we conduct extensive ablation studies and results analysis to prove the effectiveness of our proposed approach.
Abstract（参考訳）: 本稿では,音声感情認識のためのマルチモーダルマルチタスク学習手法MMERを提案する。 MMERは、テキストと音響モダリティの早期融合と相互自己認識に基づく新しいマルチモーダルネットワークを活用し、音声発話から感情認識を学ぶための3つの新しい補助的タスクを解決する。実際、MMERはすべてのベースラインを上回り、IEMOCAPベンチマークで最先端のパフォーマンスを達成する。また,提案手法の有効性を証明するため,広範囲なアブレーション研究と結果分析を行った。

関連論文リスト

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [105.88658935310605]
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
論文参考訳（メタデータ） (2025-01-03T18:59:52Z)
What Factors Affect Multi-Modal In-Context Learning? An In-Depth Exploration [59.855712519568904]
本稿では,MM-ICLの中核となる3つのステップについて検討する。本研究は, 実演検索におけるマルチモーダルレトリバーの必要性と, 演目間注文よりも演目内注文が重要であることを明らかにする。
論文参考訳（メタデータ） (2024-10-27T15:37:51Z)
Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。 AWEは以前、音響的識別可能性の把握に有用であることを示した。以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文参考訳（メタデータ） (2024-02-04T21:24:54Z)
A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions [0.0]
分類的・次元的な感情を予測するマルチタスク・マルチモーダルシステムを提案する。その結果,2種類の感情の相互規則化の重要性が強調された。
論文参考訳（メタデータ） (2023-12-31T16:48:03Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition [18.38506185117551]
音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。我々は,Multi-perspective Fusion Search Network (MFSN)と呼ばれる,SERにおける知識の事前学習のための新しいフレームワークを提案する。包括性を考慮して、音声知識をテキスト関連感情コンテンツ(TEC)と音声関連感情コンテンツ(SEC)に分割する。
論文参考訳（メタデータ） (2023-06-12T16:40:07Z)
An Empirical Study and Improvement for Speech Emotion Recognition [22.250228893114066]
マルチモーダル音声の感情認識は、音声とテキストから話者の感情を検出することを目的としている。本研究では、音声とテキストのモダリティ情報を融合する方法という、シンプルながら重要な問題について考察する。実験により,本手法はIEMOCAPデータセット上で得られた新しい最先端結果を示す。
論文参考訳（メタデータ） (2023-04-08T03:24:06Z)
UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion Recognition [32.34485263348587]
マルチモーダル感情分析(MSA)と会話における感情認識(ERC)は、コンピュータが人間の行動を理解する上で重要な研究課題である。我々は,MSAとERCタスクを特徴,ラベル,モデルから統合するマルチモーダル感情知識共有フレームワーク(UniMSE)を提案する。我々は、統語的・意味的なレベルでモダリティ融合を行い、感情と感情の差異と一貫性をよりよく捉えるために、モダリティとサンプルの対比学習を導入する。
論文参考訳（メタデータ） (2022-11-21T08:46:01Z)
MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文参考訳（メタデータ） (2021-10-27T09:57:00Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。