論文の概要: learning discriminative features from spectrograms using center loss for speech emotion recognition
- arxiv url: http://arxiv.org/abs/2501.01103v1
- Date: Thu, 02 Jan 2025 06:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:14.911350
- Title: learning discriminative features from spectrograms using center loss for speech emotion recognition
- Title(参考訳): 中心損失を用いたスペクトルからの識別的特徴の学習による音声感情認識
- Authors: Dongyang Dai, Zhiyong Wu, Runnan Li, Xixin Wu, Jia Jia, Helen Meng,
- Abstract要約: 本稿では,感情認識のための可変長スペクトログラムから識別特徴を学習するための新しい手法を提案する。
ソフトマックスのクロスエントロピー損失は、異なる感情カテゴリの特徴を分離可能とし、センターロスは、同じ感情カテゴリに属する特徴をその中心に効率的に引き出す。
- 参考スコア(独自算出の注目度): 62.13177498013144
- License:
- Abstract: Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
- Abstract(参考訳): 音声から感情状態を特定することは、機械と話者との自然な相互作用に不可欠である。
しかし、感情があいまいであるため、感情認識に有効な特徴を抽出することは困難である。
本稿では,ソフトマックスのクロスエントロピー損失と中心損失の協調による感情認識のための可変長スペクトログラムから識別的特徴を学習する手法を提案する。
ソフトマックスのクロスエントロピー損失は、異なる感情カテゴリの特徴を分離可能とし、センターロスは、同じ感情カテゴリに属する特徴をその中心に効率的に引き出す。
これら2つの損失を組み合わせることで、識別能力が向上し、ネットワーク学習による感情認識がより効果的になる。
実験結果から, 中心損失を導入した後, メル・スペクトログラム入力では, 未重み付き精度と重み付き精度が3倍以上, 短時間フーリエ変換では4倍以上向上した。
関連論文リスト
- Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare [0.0]
人間の感情と感情状態を音声から識別するプロセスは、音声感情認識(SER)として知られている。
私の研究は、畳み込みニューラルネットワーク(CNN)を使って、音声録音と感情を区別し、異なる感情の範囲に応じてラベル付けすることを目指しています。
私は、機械学習手法を用いて、供給された音声ファイルから感情を識別する機械学習モデルを開発した。
論文 参考訳(メタデータ) (2024-06-15T21:33:03Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Implementation of AI Deep Learning Algorithm For Multi-Modal Sentiment
Analysis [0.9065034043031668]
2チャンネル畳み込みニューラルネットワークとリングネットワークを組み合わせることで,マルチモーダル感情認識手法を確立した。
単語はGloVeでベクトル化され、ワードベクトルは畳み込みニューラルネットワークに入力される。
論文 参考訳(メタデータ) (2023-11-19T05:49:39Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。
提案手法とCAER-Sデータセットの最先端手法を比較した。
論文 参考訳(メタデータ) (2021-11-03T15:08:55Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Emotion pattern detection on facial videos using functional statistics [62.997667081978825]
顔面筋運動の有意なパターンを抽出する機能的ANOVAに基づく手法を提案する。
感情群間の表現に時間的差があるかどうかを関数fテストを用いて判定する。
論文 参考訳(メタデータ) (2021-03-01T08:31:08Z) - Multi-Classifier Interactive Learning for Ambiguous Speech Emotion
Recognition [9.856709988128515]
曖昧な発話感情に対処するために,MCIL (Multi-classifier Interactive Learning) 法を提案する。
MCILは、曖昧な感情の無矛盾な認識を持つ複数の個人を模倣し、新しい曖昧なラベルを構築する。
実験では、MCILは各分類器のパフォーマンスを向上させるだけでなく、認識の一貫性を中程度から実質的に向上させる。
論文 参考訳(メタデータ) (2020-12-10T02:58:34Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。