論文の概要: MSAC: Multiple Speech Attribute Control Method for Reliable Speech
Emotion Recognition
- arxiv url: http://arxiv.org/abs/2308.04025v2
- Date: Wed, 13 Sep 2023 04:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 17:19:46.903885
- Title: MSAC: Multiple Speech Attribute Control Method for Reliable Speech
Emotion Recognition
- Title(参考訳): MSAC:信頼度の高い音声感情認識のための複数音声属性制御法
- Authors: Yu Pan, Yuguang Yang, Yuheng Huang, Jingjing Yin, Yanni Hu, Heng Lu,
Lei Ma, Jianjun Zhao
- Abstract要約: 本研究は,音声感情認識手法の信頼性に関する研究の先駆者である。
CNNをベースとした新たなSERモデルでは、加算マージンのソフトマックス損失が最初にデジタイズされる。
音声属性を明示的に制御する新しいマルチ音声属性制御法MSACを提案する。
単体SERシナリオとクロスコーパスSERシナリオの両方の実験により、提案した統合SERワークフローは、すべての面で一貫してベースラインを上回ります。
- 参考スコア(独自算出の注目度): 8.049003600287206
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite significant progress, speech emotion recognition (SER) remains
challenging due to inherent complexity and ambiguity of the emotion attribute,
particularly in wild world. Whereas current studies primarily focus on
recognition and generalization abilities, this work pioneers an investigation
into the reliability of SER methods and explores the modeling of speech emotion
based on data distribution across various speech attributes. Specifically, a
novel CNN-based SER model that adopts additive margin softmax loss is first
desgined. Second, a novel multiple speech attribute control method MSAC is
proposed to explicitly control speech attributes, enabling the model to be less
affected by emotion-agnostic features and extract fine-grained emotion-related
representations. Third, we make a first attempt to examine the reliability of
our proposed unified SER workflow using the out-of-distribution detection
method. Experiments on both single and cross-corpus SER scenarios show that our
proposed unified SER workflow consistently outperforms the baseline in all
aspects. Remarkably, in single-corpus SER, the proposed SER workflow achieves
superior recognition results with a WAR of 72.97% and a UAR of 71.76% on the
IEMOCAP corpus.
- Abstract(参考訳): 言語感情認識(SER)は、大きな進歩にもかかわらず、特に野生世界では、感情特性の複雑さとあいまいさのため、依然として困難である。
最近の研究は主に認識と一般化の能力に焦点を当てているが、本研究はser法の信頼性に関する調査の先駆けとなり、様々な音声属性間のデータ分布に基づく音声感情のモデル化を探求する。
具体的には、加算マージンソフトマックス損失を採用する新しいcnnベースのserモデルが最初に提案される。
第2に,音声属性を明示的に制御し,感情非依存な特徴の影響を軽減し,きめ細かい感情関連表現を抽出するための,新しい複数音声属性制御法であるmsacを提案する。
第3に,提案する統一サーワークフローの信頼性を,分散検出手法を用いて検証する試みを行った。
単体SERシナリオとクロスコーパスSERシナリオの両方の実験により、提案した統合SERワークフローは、すべての面で一貫してベースラインを上回ります。
注目すべきは、シングルコーパスSERにおいて、提案されたSERワークフローは、 WAR 72.97% と UAR 71.76% のIEMOCAPコーパスで優れた認識結果を達成することである。
関連論文リスト
- PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition [18.38506185117551]
音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。
我々は,Multi-perspective Fusion Search Network (MFSN)と呼ばれる,SERにおける知識の事前学習のための新しいフレームワークを提案する。
包括性を考慮して、音声知識をテキスト関連感情コンテンツ(TEC)と音声関連感情コンテンツ(SEC)に分割する。
論文 参考訳(メタデータ) (2023-06-12T16:40:07Z) - UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion
Recognition [32.34485263348587]
マルチモーダル感情分析(MSA)と会話における感情認識(ERC)は、コンピュータが人間の行動を理解する上で重要な研究課題である。
我々は,MSAとERCタスクを特徴,ラベル,モデルから統合するマルチモーダル感情知識共有フレームワーク(UniMSE)を提案する。
我々は、統語的・意味的なレベルでモダリティ融合を行い、感情と感情の差異と一貫性をよりよく捉えるために、モダリティとサンプルの対比学習を導入する。
論文 参考訳(メタデータ) (2022-11-21T08:46:01Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。