論文の概要: No Pitch Left Behind: Addressing Gender Unbalance in Automatic Speech
Recognition through Pitch Manipulation
- arxiv url: http://arxiv.org/abs/2310.06590v1
- Date: Tue, 10 Oct 2023 12:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:26:40.897203
- Title: No Pitch Left Behind: Addressing Gender Unbalance in Automatic Speech
Recognition through Pitch Manipulation
- Title(参考訳): ピッチが残っていない:ピッチ操作による自動音声認識における男女不均衡の解消
- Authors: Dennis Fucci, Marco Gaido, Matteo Negri, Mauro Cettolo, Luisa
Bentivogli
- Abstract要約: 本稿では,基本周波数(f0)とホルマントを操作するデータ拡張手法を提案する。
この手法は、表現不足の女性話者の声をシミュレートすることにより、性別間のデータ不均衡を低減する。
自発性英語音声の実験では,女性話者の発話に対して,WERの相対的な改善が9.87%に達することが示された。
- 参考スコア(独自算出の注目度): 20.731375136671605
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic speech recognition (ASR) systems are known to be sensitive to the
sociolinguistic variability of speech data, in which gender plays a crucial
role. This can result in disparities in recognition accuracy between male and
female speakers, primarily due to the under-representation of the latter group
in the training data. While in the context of hybrid ASR models several
solutions have been proposed, the gender bias issue has not been explicitly
addressed in end-to-end neural architectures. To fill this gap, we propose a
data augmentation technique that manipulates the fundamental frequency (f0) and
formants. This technique reduces the data unbalance among genders by simulating
voices of the under-represented female speakers and increases the variability
within each gender group. Experiments on spontaneous English speech show that
our technique yields a relative WER improvement up to 9.87% for utterances by
female speakers, with larger gains for the least-represented f0 ranges.
- Abstract(参考訳): 自動音声認識(asr)システムは、性別が重要な役割を果たす音声データの社会言語学的変動に敏感であることが知られている。
これは、主に訓練データにおける後者のグループの表現不足のため、男性と女性の話者間の認識精度の差をもたらす可能性がある。
ハイブリッドASRモデルのコンテキストでは、いくつかのソリューションが提案されているが、ジェンダーバイアス問題はエンドツーエンドのニューラルアーキテクチャでは明示的に解決されていない。
このギャップを埋めるために,基本周波数(f0)とホルマントを操作するデータ拡張手法を提案する。
この手法は、未表現の女性話者の声をシミュレートすることで、性別間のデータ不均衡を低減し、各性別グループにおける変動性を高める。
自発性英語音声に対する実験の結果,女性話者の発話に対するWERの相対的な改善は9.87%となり,表現の少ないf0範囲では大きな利得が得られた。
関連論文リスト
- Everyone deserves their voice to be heard: Analyzing Predictive Gender Bias in ASR Models Applied to Dutch Speech Data [13.91630413828167]
本研究は,オランダ語音声データに基づくWhisperモデルの性能格差の同定に焦点をあてる。
性別グループ間の単語誤り率,文字誤り率,BERTに基づく意味的類似性を解析した。
論文 参考訳(メタデータ) (2024-11-14T13:29:09Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance Gaps [25.95711246919163]
現在の自動音声認識(ASR)モデルは、多くの言語やタスクでかなりの変更を加えることなく使用できるように設計されている。
本研究では,3つのデータセット上で広く使用されている2つの多言語ASRモデルの性能を体系的に評価する。
以上の結果から,言語やモデルによって異なる傾向がみられた。
論文 参考訳(メタデータ) (2024-02-28T00:24:29Z) - Integrating Language Models into Direct Speech Translation: An
Inference-Time Solution to Control Gender Inflection [23.993869026482415]
本稿では,音声翻訳における話者関連性摂動を制御するための最初の推論時解を提案する。
我々のソリューションは、STデコーダによって暗黙的に学習された(バイアス付き)内部言語モデル(LM)を、性別固有の外部LMに部分的に置き換える。
論文 参考訳(メタデータ) (2023-10-24T11:55:16Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages [51.2321117760104]
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
論文 参考訳(メタデータ) (2023-08-31T17:20:50Z) - Elucidate Gender Fairness in Singing Voice Transcription [5.434559527051845]
歌唱音声書き起こし(SVT)における性差が性差につながるかどうかを考察する。
ジェンダーデータの不均衡ではなく、ピッチの分布が異なることが、この格差に寄与している。
この問題に対処するために、属性予測器を用いて性別ラベルを予測し、SVTシステムを逆さまに訓練し、音響表現の性差を強制する手法を提案する。
論文 参考訳(メタデータ) (2023-08-05T15:15:01Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Gender Stereotype Reinforcement: Measuring the Gender Bias Conveyed by
Ranking Algorithms [68.85295025020942]
本稿では,性別ステレオタイプをサポートする検索エンジンの傾向を定量化するジェンダーステレオタイプ強化(GSR)尺度を提案する。
GSRは、表現上の害を定量化できる情報検索のための、最初の特別に調整された尺度である。
論文 参考訳(メタデータ) (2020-09-02T20:45:04Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。