論文の概要: Mouth Articulation-Based Anchoring for Improved Cross-Corpus Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2412.19909v1
- Date: Fri, 27 Dec 2024 20:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:55.411923
- Title: Mouth Articulation-Based Anchoring for Improved Cross-Corpus Speech Emotion Recognition
- Title(参考訳): モース調律に基づくクロスコーパス音声認識のためのアンカリング
- Authors: Shreya G. Upadhyay, Ali N. Salman, Carlos Busso, Chi-Chun Lee,
- Abstract要約: クロスコーパス音声感情認識(SER)は多くの実践的応用において重要な役割を担っている。
クロスコーパスの感情伝達への伝統的なアプローチは、しばしば異なるコーパス、ドメインまたはラベルに合わせるために音響的特徴を適用することに集中する。
本研究は、感情特異的な調音ジェスチャーを分析のコア要素とする、新しいコントラスト的アプローチを採用する。
- 参考スコア(独自算出の注目度): 37.57745459245874
- License:
- Abstract: Cross-corpus speech emotion recognition (SER) plays a vital role in numerous practical applications. Traditional approaches to cross-corpus emotion transfer often concentrate on adapting acoustic features to align with different corpora, domains, or labels. However, acoustic features are inherently variable and error-prone due to factors like speaker differences, domain shifts, and recording conditions. To address these challenges, this study adopts a novel contrastive approach by focusing on emotion-specific articulatory gestures as the core elements for analysis. By shifting the emphasis on the more stable and consistent articulatory gestures, we aim to enhance emotion transfer learning in SER tasks. Our research leverages the CREMA-D and MSP-IMPROV corpora as benchmarks and it reveals valuable insights into the commonality and reliability of these articulatory gestures. The findings highlight mouth articulatory gesture potential as a better constraint for improving emotion recognition across different settings or domains.
- Abstract(参考訳): クロスコーパス音声感情認識(SER)は多くの実践的応用において重要な役割を担っている。
クロスコーパスの感情伝達への伝統的なアプローチは、しばしば異なるコーパス、ドメインまたはラベルに合わせるために音響的特徴を適用することに集中する。
しかし、音響特性は、話者差、ドメインシフト、記録条件などの要因により、本質的に変動し、エラーを起こしやすい。
これらの課題に対処するために、分析のコア要素として感情特異的な調音ジェスチャーに焦点をあてて、対照的なアプローチを採用する。
より安定的で一貫した調音ジェスチャーに重点を移すことで、SERタスクにおける感情伝達学習を強化することを目指している。
本研究は, CREMA-D と MSP-IMPROV のコーパスをベンチマークとして利用し, これらの調音ジェスチャーの共通性と信頼性に関する貴重な知見を明らかにする。
これらの知見は、異なる設定や領域における感情認識を改善するためのより良い制約として、口調音ジェスチャーの可能性を強調している。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition [7.81011775615268]
シングルコーパスとクロスコーパスSERの両方を同時に処理できる新しい統合SERフレームワークであるMSAC-SERNetを紹介する。
様々な音声属性間の情報重なりを考慮し、異なる音声属性の相関に基づく新しい学習パラダイムを提案する。
シングルコーパスSERシナリオとクロスコーパスSERシナリオの両方の実験は、MSAC-SERNetが最先端SERアプローチと比較して優れた性能を発揮することを示している。
論文 参考訳(メタデータ) (2023-08-08T03:43:24Z) - Empirical Interpretation of the Relationship Between Speech Acoustic
Context and Emotion Recognition [28.114873457383354]
音声感情認識(SER)は、感情的な知性を得、発話の文脈的意味を理解するために不可欠である。
実際に、音声の感情は、所定の時間の間、音響セグメント上で単一のラベルとして扱われる。
本研究は,SERにおける音声コンテキストと音声境界が局所的マーカーに与える影響について,注意に基づくアプローチを用いて検討する。
論文 参考訳(メタデータ) (2023-06-30T09:21:48Z) - Attention-based Region of Interest (ROI) Detection for Speech Emotion
Recognition [4.610756199751138]
本研究では,深部脳神経回路網における注意機構を用いて,人間の感情的音声/ビデオにおいてより感情的に有意な関心領域(ROI)を検出することを提案する。
6つの基本的な人間の感情を認識する多クラス分類タスクにおいて,提案した注目ネットワークと最先端のLSTMモデルの性能を比較した。
論文 参考訳(メタデータ) (2022-03-03T22:01:48Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Acted vs. Improvised: Domain Adaptation for Elicitation Approaches in
Audio-Visual Emotion Recognition [29.916609743097215]
一般化された感情認識システムの開発における主な課題は、ラベル付きデータの不足とゴールドスタンダード参照の欠如である。
本研究では,感情誘発アプローチをドメイン知識とみなし,感情発話におけるドメイン伝達学習技術を探求する。
論文 参考訳(メタデータ) (2021-04-05T15:59:31Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - COSMIC: COmmonSense knowledge for eMotion Identification in
Conversations [95.71018134363976]
我々は,心的状態,出来事,因果関係など,常識の異なる要素を取り入れた新しい枠組みであるCOSMICを提案する。
我々は,COSMICが4つのベンチマークの会話データセット上で,感情認識のための最新の結果を実現することを示す。
論文 参考訳(メタデータ) (2020-10-06T15:09:38Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。