Fugu-MT 論文翻訳(概要): CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition

論文の概要: CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition

arxiv url: http://arxiv.org/abs/2506.06071v1
Date: Fri, 06 Jun 2025 13:25:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.486974
Title: CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition
Title（参考訳）: CO-VADA:公正な音声感情認識のための信頼度指向型音声強調脱バイアス手法
Authors: Yun-Shao Tsai, Yi-Cheng Lin, Huang-Cheng Chou, Hung-yi Lee,
Abstract要約: モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。 CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
参考スコア（独自算出の注目度）: 49.27067541740956
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Bias in speech emotion recognition (SER) systems often stems from spurious correlations between speaker characteristics and emotional labels, leading to unfair predictions across demographic groups. Many existing debiasing methods require model-specific changes or demographic annotations, limiting their practical use. We present CO-VADA, a Confidence-Oriented Voice Augmentation Debiasing Approach that mitigates bias without modifying model architecture or relying on demographic information. CO-VADA identifies training samples that reflect bias patterns present in the training data and then applies voice conversion to alter irrelevant attributes and generate samples. These augmented samples introduce speaker variations that differ from dominant patterns in the data, guiding the model to focus more on emotion-relevant features. Our framework is compatible with various SER models and voice conversion tools, making it a scalable and practical solution for improving fairness in SER systems.
Abstract（参考訳）: 音声感情認識(SER)システムにおけるバイアスは、話者特性と感情的ラベルの急激な相関から生じることが多く、人口集団間で不公平な予測をもたらす。既存のデバイアス法の多くは、モデル固有の変更や人口統計学的アノテーションを必要とし、実用的使用を制限する。モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。 CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。これらの強化サンプルは、データの主要なパターンとは異なる話者のバリエーションを導入し、モデルが感情関連機能にもっと焦点を合わせるように誘導する。我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。

関連論文リスト

CMIS-Net: A Cascaded Multi-Scale Individual Standardization Network for Backchannel Agreement Estimation [11.099292100782884]
バックチャネルは、会話における理解と合意を伝える微妙なリスナー応答である。バックチャネルの振る舞いの表現は、しばしば個人差に大きく影響される。本稿では,個別に正規化されたバックチャネル特徴を抽出するCMIS-Netを提案する。
論文参考訳（メタデータ） (2025-10-15T03:21:51Z)
Mitigating Biases in Language Models via Bias Unlearning [27.565946855618368]
両経路のアンラーニング機構によって目的のデバイアスを実現する新しいモデルデバイアスフレームワークであるBiasUnlearnを提案する。その結果、BiasUnlearnは言語モデルにおけるバイアスを軽減するために既存の手法よりも優れており、言語モデリング能力は維持されていることがわかった。
論文参考訳（メタデータ） (2025-09-30T02:15:12Z)
Analyzing and Improving Speaker Similarity Assessment for Speech Synthesis [20.80178325643714]
生成音声システムでは、IDは自動話者検証(ASV)埋め込みを用いて評価されることが多い。広く使われているASV埋め込みは,リズムなどの動的要素を無視しつつ,音色やピッチ範囲などの静的特徴に主眼を置いていることがわかった。これらのギャップに対処するために、話者の動的リズムパターンを評価する指標であるU3Dを提案する。
論文参考訳（メタデータ） (2025-07-02T22:16:42Z)
Improving speaker verification robustness with synthetic emotional utterances [14.63248006004598]
話者検証(SV)システムは、特定の話者から発する音声サンプルが発するかどうかを確認するための認証サービスを提供する。従来のモデルでは、感情的な発話を扱う場合、中立なモデルに比べて高いエラー率を示す。この問題は、ラベル付き感情音声データの利用が限られていることに起因している。本稿では,CycleGANフレームワークを用いたデータ拡張手法を提案する。
論文参考訳（メタデータ） (2024-11-30T02:18:26Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
FairLENS: Assessing Fairness in Law Enforcement Speech Recognition [37.75768315119143]
本研究では,異なるモデル間の公平さの相違を検証するための,新しい適応性評価手法を提案する。我々は1つのオープンソースと11の商用 ASR モデルに対してフェアネスアセスメントを行った。
論文参考訳（メタデータ） (2024-05-21T19:23:40Z)
Disentangling Voice and Content with Self-Supervision for Speaker Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文参考訳（メタデータ） (2023-10-02T12:02:07Z)
Unsupervised Personalization of an Emotion Recognition System: The Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文参考訳（メタデータ） (2022-01-19T22:14:49Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
Statistical Context-Dependent Units Boundary Correction for Corpus-based Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文参考訳（メタデータ） (2020-03-05T12:42:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。