Fugu-MT 論文翻訳(概要): MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention

論文の概要: MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention

arxiv url: http://arxiv.org/abs/2404.13509v1
Date: Sun, 21 Apr 2024 02:44:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 18:40:56.616153
Title: MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention
Title（参考訳）: MFHCA:多空間融合と階層的協調注意による音声感情認識の強化
Authors: Xinxin Jiao, Liejun Wang, Yinfeng Yu,
Abstract要約: 本稿では,マルチ空間融合と階層的協調注意を用いた音声感情認識手法であるMFHCAを紹介する。我々はMF(Multi-Spatial Fusion Module)を用いて感情関連スペクトログラム領域を効率よく同定し、ハイレベル音響情報にヒューバート特徴を統合する。提案手法をIEMOCAPデータセット上で評価し,重み付き精度と非重み付き精度をそれぞれ2.6%,1.87%改善した。
参考スコア（独自算出の注目度）: 6.725011823614421
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Speech emotion recognition is crucial in human-computer interaction, but extracting and using emotional cues from audio poses challenges. This paper introduces MFHCA, a novel method for Speech Emotion Recognition using Multi-Spatial Fusion and Hierarchical Cooperative Attention on spectrograms and raw audio. We employ the Multi-Spatial Fusion module (MF) to efficiently identify emotion-related spectrogram regions and integrate Hubert features for higher-level acoustic information. Our approach also includes a Hierarchical Cooperative Attention module (HCA) to merge features from various auditory levels. We evaluate our method on the IEMOCAP dataset and achieve 2.6\% and 1.87\% improvements on the weighted accuracy and unweighted accuracy, respectively. Extensive experiments demonstrate the effectiveness of the proposed method.
Abstract（参考訳）: 音声による感情認識は、人間とコンピュータの相互作用において重要であるが、音声から感情的な手がかりを抽出し、使用することは課題を提起する。本稿では,マルチ空間融合と階層的協調注意を用いた音声認識手法であるMFHCAを紹介する。我々はMF(Multi-Spatial Fusion Module)を用いて感情関連スペクトログラム領域を効率よく同定し、ハイレベル音響情報にヒューバート特徴を統合する。また,HCA(Hierarchical Cooperative Attention Module)を組み,様々な聴覚レベルから特徴をマージする。提案手法をIEMOCAPデータセット上で評価し,重み付き精度と非重み付き精度をそれぞれ2.6\%,1.87\%改善した。大規模実験により提案手法の有効性が示された。

関連論文リスト

Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。 IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文参考訳（メタデータ） (2025-03-05T07:02:30Z)
A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion [3.1409950035735914]
本稿では,コントラスト学習と視覚的シーケンス圧縮を統合した新しいマルチモーダル感情認識手法であるDeepMSI-MERを提案する。 2つの公開データセット(IEMOCAPとMELD)の実験結果から、DeepMSI-MERは感情認識の精度と堅牢性を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-02-12T17:07:43Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction [6.1058750788332325]
第6回ワークショップおよび感情行動分析コンペティションの一環として,情緒的不安度(EMI)を評価するための新しい方法論を紹介した。我々の手法は、広範囲なポッドキャストデータセットで事前トレーニングされたWav2Vec 2.0アーキテクチャを活用している。我々は,個々の特徴をグローバル平均ベクトルと組み合わせた融合手法を用いて特徴抽出プロセスを洗練する。
論文参考訳（メタデータ） (2024-03-18T15:32:02Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
An Empirical Study and Improvement for Speech Emotion Recognition [22.250228893114066]
マルチモーダル音声の感情認識は、音声とテキストから話者の感情を検出することを目的としている。本研究では、音声とテキストのモダリティ情報を融合する方法という、シンプルながら重要な問題について考察する。実験により,本手法はIEMOCAPデータセット上で得られた新しい最先端結果を示す。
論文参考訳（メタデータ） (2023-04-08T03:24:06Z)
M2FNet: Multi-modal Fusion Network for Emotion Recognition in Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文参考訳（メタデータ） (2022-06-05T14:18:58Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)
Speech Emotion Recognition with Co-Attention based Multi-level Acoustic Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文参考訳（メタデータ） (2022-03-29T08:17:28Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Multistage linguistic conditioning of convolutional layers for speech emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文参考訳（メタデータ） (2021-10-13T11:28:04Z)
Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion Recognition [62.48806555665122]
EmotiW 2019では、感情の特徴と、音声と視覚のモダリティのための機能融合戦略を主に検討している。慎重な評価により、AFEW検証セットで65.5%、テストセットで62.48%、チャレンジで3位を獲得します。
論文参考訳（メタデータ） (2020-12-27T10:50:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。