論文の概要: MSAC: Multiple Speech Attribute Control Method for Reliable Speech
Emotion Recognition
- arxiv url: http://arxiv.org/abs/2308.04025v2
- Date: Wed, 13 Sep 2023 04:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 17:19:46.903885
- Title: MSAC: Multiple Speech Attribute Control Method for Reliable Speech
Emotion Recognition
- Title(参考訳): MSAC:信頼度の高い音声感情認識のための複数音声属性制御法
- Authors: Yu Pan, Yuguang Yang, Yuheng Huang, Jingjing Yin, Yanni Hu, Heng Lu,
Lei Ma, Jianjun Zhao
- Abstract要約: 本研究は,音声感情認識手法の信頼性に関する研究の先駆者である。
CNNをベースとした新たなSERモデルでは、加算マージンのソフトマックス損失が最初にデジタイズされる。
音声属性を明示的に制御する新しいマルチ音声属性制御法MSACを提案する。
単体SERシナリオとクロスコーパスSERシナリオの両方の実験により、提案した統合SERワークフローは、すべての面で一貫してベースラインを上回ります。
- 参考スコア(独自算出の注目度): 8.049003600287206
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite significant progress, speech emotion recognition (SER) remains
challenging due to inherent complexity and ambiguity of the emotion attribute,
particularly in wild world. Whereas current studies primarily focus on
recognition and generalization abilities, this work pioneers an investigation
into the reliability of SER methods and explores the modeling of speech emotion
based on data distribution across various speech attributes. Specifically, a
novel CNN-based SER model that adopts additive margin softmax loss is first
desgined. Second, a novel multiple speech attribute control method MSAC is
proposed to explicitly control speech attributes, enabling the model to be less
affected by emotion-agnostic features and extract fine-grained emotion-related
representations. Third, we make a first attempt to examine the reliability of
our proposed unified SER workflow using the out-of-distribution detection
method. Experiments on both single and cross-corpus SER scenarios show that our
proposed unified SER workflow consistently outperforms the baseline in all
aspects. Remarkably, in single-corpus SER, the proposed SER workflow achieves
superior recognition results with a WAR of 72.97% and a UAR of 71.76% on the
IEMOCAP corpus.
- Abstract(参考訳): 言語感情認識(SER)は、大きな進歩にもかかわらず、特に野生世界では、感情特性の複雑さとあいまいさのため、依然として困難である。
最近の研究は主に認識と一般化の能力に焦点を当てているが、本研究はser法の信頼性に関する調査の先駆けとなり、様々な音声属性間のデータ分布に基づく音声感情のモデル化を探求する。
具体的には、加算マージンソフトマックス損失を採用する新しいcnnベースのserモデルが最初に提案される。
第2に,音声属性を明示的に制御し,感情非依存な特徴の影響を軽減し,きめ細かい感情関連表現を抽出するための,新しい複数音声属性制御法であるmsacを提案する。
第3に,提案する統一サーワークフローの信頼性を,分散検出手法を用いて検証する試みを行った。
単体SERシナリオとクロスコーパスSERシナリオの両方の実験により、提案した統合SERワークフローは、すべての面で一貫してベースラインを上回ります。
注目すべきは、シングルコーパスSERにおいて、提案されたSERワークフローは、 WAR 72.97% と UAR 71.76% のIEMOCAPコーパスで優れた認識結果を達成することである。
関連論文リスト
- Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified
Datasets and Multitask Learning [24.57668015470307]
我々はSERタスクをマルチスケールの統一メトリックに基づいて統合するフレームワークであるSpeechEQを提案する。
この指標は、感情状態カテゴリー(EIS)と感情強度尺度(EIS)の2つの感情認識タスクを含むマルチタスク学習(MTL)によって訓練することができる。
本研究では,マンダリンにおけるCASIAおよびESDデータセットの公開実験を行い,本手法がベースライン法を比較的大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2022-06-27T08:11:54Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Fusing ASR Outputs in Joint Training for Speech Emotion Recognition [14.35400087127149]
共同学習音声認識(SER)のためのパイプラインに自動音声認識(ASR)出力を融合する手法を提案する。
共同ASR-SERトレーニングでは、階層的コアテンション融合アプローチを用いて、ASRとテキストの出力の両方を組み込むことで、SERの性能が向上する。
また,IEMOCAPにおける単語誤り率解析や,ASRとSERの関係をよりよく理解するために,Wav2vec 2.0モデルの層差解析も提案する。
論文 参考訳(メタデータ) (2021-10-29T11:21:17Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。