論文の概要: CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2506.06071v1
- Date: Fri, 06 Jun 2025 13:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.486974
- Title: CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition
- Title(参考訳): CO-VADA:公正な音声感情認識のための信頼度指向型音声強調脱バイアス手法
- Authors: Yun-Shao Tsai, Yi-Cheng Lin, Huang-Cheng Chou, Hung-yi Lee,
- Abstract要約: モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。
CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。
我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
- 参考スコア(独自算出の注目度): 49.27067541740956
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Bias in speech emotion recognition (SER) systems often stems from spurious correlations between speaker characteristics and emotional labels, leading to unfair predictions across demographic groups. Many existing debiasing methods require model-specific changes or demographic annotations, limiting their practical use. We present CO-VADA, a Confidence-Oriented Voice Augmentation Debiasing Approach that mitigates bias without modifying model architecture or relying on demographic information. CO-VADA identifies training samples that reflect bias patterns present in the training data and then applies voice conversion to alter irrelevant attributes and generate samples. These augmented samples introduce speaker variations that differ from dominant patterns in the data, guiding the model to focus more on emotion-relevant features. Our framework is compatible with various SER models and voice conversion tools, making it a scalable and practical solution for improving fairness in SER systems.
- Abstract(参考訳): 音声感情認識(SER)システムにおけるバイアスは、話者特性と感情的ラベルの急激な相関から生じることが多く、人口集団間で不公平な予測をもたらす。
既存のデバイアス法の多くは、モデル固有の変更や人口統計学的アノテーションを必要とし、実用的使用を制限する。
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。
CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。
これらの強化サンプルは、データの主要なパターンとは異なる話者のバリエーションを導入し、モデルが感情関連機能にもっと焦点を合わせるように誘導する。
我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
関連論文リスト
- Improving speaker verification robustness with synthetic emotional utterances [14.63248006004598]
話者検証(SV)システムは、特定の話者から発する音声サンプルが発するかどうかを確認するための認証サービスを提供する。
従来のモデルでは、感情的な発話を扱う場合、中立なモデルに比べて高いエラー率を示す。
この問題は、ラベル付き感情音声データの利用が限られていることに起因している。
本稿では,CycleGANフレームワークを用いたデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-11-30T02:18:26Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - FairLENS: Assessing Fairness in Law Enforcement Speech Recognition [37.75768315119143]
本研究では,異なるモデル間の公平さの相違を検証するための,新しい適応性評価手法を提案する。
我々は1つのオープンソースと11の商用 ASR モデルに対してフェアネスアセスメントを行った。
論文 参考訳(メタデータ) (2024-05-21T19:23:40Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文 参考訳(メタデータ) (2022-01-19T22:14:49Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。