論文の概要: A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning
- arxiv url: http://arxiv.org/abs/2411.19803v1
- Date: Mon, 25 Nov 2024 07:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:13.493900
- Title: A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning
- Title(参考訳): 教師付きコントラスト学習に基づくクロスコーパス音声感情認識法
- Authors: Xiang minjie,
- Abstract要約: 本稿では,教師付きコントラスト学習に基づくクロスコーパス音声認識手法を提案する。
まず,複数の音声感情データセットに対する教師付きコントラスト学習を用いて,自己教師付き音声表現モデルを微調整する。
実験の結果、WavLMベースのモデルはIEMOCAPデータセットで77.41%、CAIAデータセットで96.49%の未重み付き精度(UA)を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Research on Speech Emotion Recognition (SER) often faces challenges such as the lack of large-scale public datasets and limited generalization capability when dealing with data from different distributions. To solve this problem, this paper proposes a cross-corpus speech emotion recognition method based on supervised contrast learning. The method employs a two-stage fine-tuning process: first, the self-supervised speech representation model is fine-tuned using supervised contrastive learning on multiple speech emotion datasets; then, the classifier is fine-tuned on the target dataset. The experimental results show that the WavLM-based model achieved unweighted accuracy (UA) of 77.41% on the IEMOCAP dataset and 96.49% on the CASIA dataset, outperforming the state-of-the-art results on the two datasets.
- Abstract(参考訳): 音声感情認識(SER)の研究は、大規模な公開データセットの欠如や、異なる分布のデータを扱う際の限定的な一般化能力といった課題に直面していることが多い。
そこで本研究では,教師付きコントラスト学習に基づくクロスコーパス音声認識手法を提案する。
まず、教師付き音声表現モデルは、複数の音声感情データセット上で教師付きコントラスト学習を用いて微調整され、次に、ターゲットデータセット上で分類器を微調整する。
実験の結果、WavLMベースのモデルはIEMOCAPデータセットで77.41%、CASIAデータセットで96.49%の非重み付き精度(UA)を達成した。
関連論文リスト
- A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - DeepEmotex: Classifying Emotion in Text Messages using Deep Transfer
Learning [0.0]
テキスト中の感情を検出する効果的なシーケンシャルトランスファー学習法としてDeepEmotexを提案する。
キュレートされたTwitterデータセットとベンチマークデータセットの両方を用いて実験を行った。
DeepEmotexモデルは、テストデータセット上でのマルチクラスの感情分類において91%以上の精度を達成する。
論文 参考訳(メタデータ) (2022-06-12T03:23:40Z) - M2R2: Missing-Modality Robust emotion Recognition framework with
iterative data augmentation [6.962213869946514]
学習された共通表現による反復的データ拡張で感情認識モデルを訓練するミス・モダリティ・ロバスト感情認識(M2R2)を提案する。
Party Attentive Network (PANet)は、すべての話者の状態と状況を追跡する感情を分類するために設計された。
論文 参考訳(メタデータ) (2022-05-05T09:16:31Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Contrastive Unsupervised Learning for Speech Emotion Recognition [22.004507213531102]
音声感情認識(SER)は、より自然な人間と機械のコミュニケーションを可能にする重要な技術である。
コントラスト予測符号化 (cpc) 法はラベルなしのデータセットから有意な表現を学習できることを示す。
論文 参考訳(メタデータ) (2021-02-12T06:06:02Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。