論文の概要: Modeling speech emotion with label variance and analyzing performance across speakers and unseen acoustic conditions
- arxiv url: http://arxiv.org/abs/2503.22711v1
- Date: Mon, 24 Mar 2025 06:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-06 06:33:39.025144
- Title: Modeling speech emotion with label variance and analyzing performance across speakers and unseen acoustic conditions
- Title(参考訳): ラベル分散による音声感情のモデル化と話者間の性能解析
- Authors: Vikramjit Mitra, Amrit Romana, Dung T. Tran, Erdrin Azemi,
- Abstract要約: 本研究では,感情グレードの確率密度関数を目標として,ベンチマーク評価セットの性能向上を実証する。
本研究では,現在最先端の音声感情モデルを訓練する上で,FM(Salliency driven foundation model)の表現選択が有効であることを示す。
複数のテストセットにまたがる性能評価と、性別や話者による性能分析は、感情モデルの有用性を評価するのに有用であることを示す。
- 参考スコア(独自算出の注目度): 4.507408840040573
- License:
- Abstract: Spontaneous speech emotion data usually contain perceptual grades where graders assign emotion score after listening to the speech files. Such perceptual grades introduce uncertainty in labels due to grader opinion variation. Grader variation is addressed by using consensus grades as groundtruth, where the emotion with the highest vote is selected. Consensus grades fail to consider ambiguous instances where a speech sample may contain multiple emotions, as captured through grader opinion uncertainty. We demonstrate that using the probability density function of the emotion grades as targets instead of the commonly used consensus grades, provide better performance on benchmark evaluation sets compared to results reported in the literature. We show that a saliency driven foundation model (FM) representation selection helps to train a state-of-the-art speech emotion model for both dimensional and categorical emotion recognition. Comparing representations obtained from different FMs, we observed that focusing on overall test-set performance can be deceiving, as it fails to reveal the models generalization capacity across speakers and gender. We demonstrate that performance evaluation across multiple test-sets and performance analysis across gender and speakers are useful in assessing usefulness of emotion models. Finally, we demonstrate that label uncertainty and data-skew pose a challenge to model evaluation, where instead of using the best hypothesis, it is useful to consider the 2- or 3-best hypotheses.
- Abstract(参考訳): 自発的な音声感情データは通常、音声ファイルを聞いてから感情スコアを割り当てる知覚的グレードを含む。
このような知覚上のグレードは、グレーダーの意見の変化によるラベルの不確実性をもたらす。
コンセンサスグレードを基礎として、最も高い投票率の感情を選択することで、グレーダ変動に対処する。
コンセンサスグレードは、グレーダーの意見の不確実性を通じて捉えられるように、音声サンプルが複数の感情を含むようなあいまいな事例を考慮できない。
本研究は、感情評価の確率密度関数を、一般的なコンセンサスグレードではなくターゲットとして用いることで、文献で報告された結果と比較して、ベンチマーク評価セットの性能が向上することを示した。
本研究では,現在最先端の音声感情モデルを用いて,感情認識と分類的感情認識の両立を図っている。
異なるFMから得られた表現を比較すると、話者と性別間のモデル一般化能力を明らかにするのに失敗するため、総合的なテストセット性能に焦点をあてることが困難であることがわかった。
複数のテストセットにまたがる性能評価と、性別や話者による性能分析は、感情モデルの有用性を評価するのに有用であることを示す。
最後に,ラベルの不確実性とデータスキューがモデル評価の課題となることを示す。
関連論文リスト
- Modeling Emotional Trajectories in Written Stories Utilizing Transformers and Weakly-Supervised Learning [47.02027575768659]
本研究では,個別の感情カテゴリーで注釈付けされた子どもの物語の既存のデータセットに対して,連続的原子価と覚醒ラベルを導入する。
得られた感情信号を予測するために,DeBERTaモデルを微調整し,弱教師付き学習手法を用いてベースラインを改善する。
詳細な分析では、著者、個々の物語、物語内のセクションなどの要因によって結果がどの程度異なるかが示される。
論文 参考訳(メタデータ) (2024-06-04T12:17:16Z) - EMOVOME: A Dataset for Emotion Recognition in Spontaneous Real-Life Speech [2.1455880234227624]
音声感情認識(SER)のための自発的データセットは、実験室環境やステージ化されたシナリオからしばしば抽出される。
EMOVOME(Emotional Voice Messages)データセットを開発し、公開しました。
ベースラインモデルおよび変圧器モデルとして音響特性を用いた話者非依存SERモデルの評価を行った。
論文 参考訳(メタデータ) (2024-03-04T16:13:39Z) - Handling Ambiguity in Emotion: From Out-of-Domain Detection to
Distribution Estimation [45.53789836426869]
感情に対する主観的な認識は、人間の注釈からの矛盾したラベルにつながる。
本稿では,あいまいな感情を扱う3つの方法について検討する。
分類器にラベルを付けない発話を付加クラスとして組み込むことで、他の感情クラスの分類性能が低下することを示す。
また,明快な深層学習を用いた感情分類における不確実性を定量化することにより,不明瞭な感情を伴う発話を領域外サンプルとして検出することを提案する。
論文 参考訳(メタデータ) (2024-02-20T09:53:38Z) - Prompting Audios Using Acoustic Properties For Emotion Representation [36.275219004598874]
感情を表現するために自然言語記述(あるいはプロンプト)の使用を提案する。
我々は、ピッチ、強度、発話速度、調音率などの感情に相関する音響特性を用いて、自動的にプロンプトを生成する。
その結果,様々なPrecision@K測定値において,音響的プロンプトがモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-03T13:06:58Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - Unifying the Discrete and Continuous Emotion labels for Speech Emotion
Recognition [28.881092401807894]
音声からの感情検出のためのパラ言語分析では、感情は離散的または次元的(連続的な評価)ラベルと同一視されている。
本研究では,連続的感情特性と離散的感情特性を共同で予測するモデルを提案する。
論文 参考訳(メタデータ) (2022-10-29T16:12:31Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Best Practices for Noise-Based Augmentation to Improve the Performance
of Deployable Speech-Based Emotion Recognition Systems [15.013423048411493]
音声の感情認識は、人間中心のシステムにおいて重要な構成要素である。
騒音の増大は、予測ラベルがノイズの有無で同じであるべきだという一つの重要な仮定を成す。
我々はクラウドソーシングを通じて、ノイズの存在によってアノテーションラベルが変化し、したがって元の基底真理ラベルが変更される可能性があることを検証した。
論文 参考訳(メタデータ) (2021-04-18T10:33:38Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。