論文の概要: MSAC: Multiple Speech Attribute Control Method for Speech Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2308.04025v1
- Date: Tue, 8 Aug 2023 03:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:16:05.819023
- Title: MSAC: Multiple Speech Attribute Control Method for Speech Emotion
Recognition
- Title(参考訳): MSAC:音声感情認識のための複数音声属性制御法
- Authors: Yu Pan
- Abstract要約: まず,CNNに基づく新たなSERモデルを構築し,各クラスの特徴間の距離を拡大する。
第二に、音声属性を明示的に制御する新しいマルチ音声属性制御法MSACを提案する。
第3に、アウト・オブ・ディストリビューション検出法を用いて、提案したSERワークフローの信頼性を第一に検証し、解析する。
- 参考スコア(独自算出の注目度): 0.8125896516173586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite significant progress, speech emotion recognition (SER) remains
challenging due to inherent complexity and ambiguity of the emotion attribute,
particularly in wild world. Whereas current studies primarily focus on
recognition and generalization capabilities, this work pioneers an exploration
into the reliability of SER methods and investigates how to model the speech
emotion from the aspect of data distribution across various speech attributes.
Specifically, we first build a novel CNN-based SER model which adopts additive
margin softmax loss to expand the distance between features of different
classes, thereby enhancing their discrimination. Second, a novel multiple
speech attribute control method MSAC is proposed to explicitly control speech
attributes, enabling the model to be less affected by emotion-agnostic
attributes and capture more fine-grained emotion-related features. Third, we
make a first attempt to test and analyze the reliability of the proposed SER
workflow using the out-of-distribution detection method. Extensive experiments
on both single and cross-corpus SER scenarios show that our proposed unified
SER workflow consistently outperforms the baseline in terms of recognition,
generalization, and reliability performance. Besides, in single-corpus SER, the
proposed SER workflow achieves superior recognition results with a WAR of
72.97\% and a UAR of 71.76\% on the IEMOCAP corpus.
- Abstract(参考訳): 言語感情認識(SER)は、大きな進歩にもかかわらず、特に野生世界では、感情特性の複雑さとあいまいさのため、依然として困難である。
最近の研究は主に認識と一般化の能力に焦点を当てているが、本研究はser法の信頼性を探求し、様々な音声属性間のデータ分布の観点から音声感情をモデル化する方法を検討する。
具体的には,新たなcnnベースのserモデルを構築し,加算マージンソフトマックス損失を適用し,異なるクラスの特徴間の距離を拡大することで識別性を高めた。
第2に,音声属性を明示的に制御し,感情非依存な属性の影響を軽減し,よりきめ細かい感情関連特徴を捉えるための,新しい複数音声属性制御法であるmsacを提案する。
第3に,out-of-distribution detection法を用いて,提案するserワークフローの信頼性をテスト・解析する試みを行った。
単一とクロスコーポレートの両方のserシナリオに関する広範な実験により,提案する統一serワークフローは,認識,一般化,信頼性性能において,ベースラインを一貫して上回っていることが示された。
さらにシングルコーパスのserでは、提案するserワークフローは72.97\%のwarとiemocapコーパス上の71.76\%のuarで優れた認識結果を達成している。
関連論文リスト
- PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition [18.38506185117551]
音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。
我々は,Multi-perspective Fusion Search Network (MFSN)と呼ばれる,SERにおける知識の事前学習のための新しいフレームワークを提案する。
包括性を考慮して、音声知識をテキスト関連感情コンテンツ(TEC)と音声関連感情コンテンツ(SEC)に分割する。
論文 参考訳(メタデータ) (2023-06-12T16:40:07Z) - UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion
Recognition [32.34485263348587]
マルチモーダル感情分析(MSA)と会話における感情認識(ERC)は、コンピュータが人間の行動を理解する上で重要な研究課題である。
我々は,MSAとERCタスクを特徴,ラベル,モデルから統合するマルチモーダル感情知識共有フレームワーク(UniMSE)を提案する。
我々は、統語的・意味的なレベルでモダリティ融合を行い、感情と感情の差異と一貫性をよりよく捉えるために、モダリティとサンプルの対比学習を導入する。
論文 参考訳(メタデータ) (2022-11-21T08:46:01Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。