論文の概要: DENOASR: Debiasing ASRs through Selective Denoising
- arxiv url: http://arxiv.org/abs/2410.16712v1
- Date: Tue, 22 Oct 2024 05:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:27:44.042517
- Title: DENOASR: Debiasing ASRs through Selective Denoising
- Title(参考訳): DENOASR: 選択的デノイングによるASRのデバイアス
- Authors: Anand Kumar Rai, Siddharth D Jaiswal, Shubham Prakash, Bendi Pragnya Sree, Animesh Mukherjee,
- Abstract要約: 本稿では,2つの性別グループ間の単語誤り率の相違を低減するために,選択的なデノケーション手法であるDeNOASRを提案する。
一般的な2つの音声認識手法である「DEMUCS」と「LE」を組み合わせることで、全体的な性能を損なうことなく、ASRの相違を効果的に軽減できることがわかった。
- 参考スコア(独自算出の注目度): 5.544079217915537
- License:
- Abstract: Automatic Speech Recognition (ASR) systems have been examined and shown to exhibit biases toward particular groups of individuals, influenced by factors such as demographic traits, accents, and speech styles. Noise can disproportionately impact speakers with certain accents, dialects, or speaking styles, leading to biased error rates. In this work, we introduce a novel framework DENOASR, which is a selective denoising technique to reduce the disparity in the word error rates between the two gender groups, male and female. We find that a combination of two popular speech denoising techniques, viz. DEMUCS and LE, can be effectively used to mitigate ASR disparity without compromising their overall performance. Experiments using two state-of-the-art open-source ASRs - OpenAI WHISPER and NVIDIA NEMO - on multiple benchmark datasets, including TIE, VOX-POPULI, TEDLIUM, and FLEURS, show that there is a promising reduction in the average word error rate gap across the two gender groups. For a given dataset, the denoising is selectively applied on speech samples having speech intelligibility below a certain threshold, estimated using a small validation sample, thus ameliorating the need for large-scale human-written ground-truth transcripts. Our findings suggest that selective denoising can be an elegant approach to mitigate biases in present-day ASR systems.
- Abstract(参考訳): 自動音声認識 (ASR) システムは, 人口動態, アクセント, 音声スタイルなどの影響を受け, 個人の特定のグループに対する偏見を示す。
騒音は特定のアクセント、方言、話し方で話者に不均等に影響を与え、誤り率にバイアスを与える。
そこで本研究では,男女間の単語誤り率の相違を解消するために,選択的なデノケーション手法であるDeNOASRを提案する。
一般的な2つの音声認識手法が組み合わさっていることが分かりました。
DEMUCSとLEは、全体的な性能を損なうことなく、ASRの格差を軽減するために効果的に使用できる。
TIE、VOX-POPULI、TEDLium、FLEURSを含む複数のベンチマークデータセット上で、2つの最先端オープンソースASR(OpenAI WHISPERとNVIDIA NEMO)を使用した実験は、2つの性別グループの平均単語エラー率ギャップが有望に減少していることを示している。
与えられたデータセットに対して、あるしきい値未満の音声サンプルに対して、最小の検証サンプルを用いて推定した音声を選択的に適用することにより、大規模な人手による接地真実書の書き起こしの必要性を改善する。
以上の結果から,現在のASRシステムにおいて,選択的除鼻はバイアスを軽減するためのエレガントなアプローチである可能性が示唆された。
関連論文リスト
- Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。
本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。
結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:56:40Z) - Houston we have a Divergence: A Subgroup Performance Analysis of ASR Models [2.5168553347063862]
Fearless Steps APOLLO Community Resourceは、マルチスピーカーチームコミュニケーションの可能性を探るための例外のない機会を提供する。
本研究では,ASR(Automatic Speech Recognition, 自動音声認識)手法により, アポロの録音を多かれ少なかれ理解しやすくする特徴を明らかにすることに焦点を当てた。
論文 参考訳(メタデータ) (2024-03-31T10:06:19Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Using Data Augmentations and VTLN to Reduce Bias in Dutch End-to-End
Speech Recognition Systems [17.75067255600971]
オランダの異なる年齢層や非ネイティブ話者に対する偏見を減らすことを目的としている。
エンドツーエンド(E2E)ASRシステムでは,データ拡張技術として最先端の速度摂動とスペクトル増大を用いる。
データ拡張とVTLNの組み合わせにより、各話者群の平均WERとバイアスはそれぞれ6.9%、VTLNは3.9%減少した。
論文 参考訳(メタデータ) (2023-07-05T03:39:40Z) - Improving the Gap in Visual Speech Recognition Between Normal and Silent
Speech Based on Metric Learning [11.50011780498048]
本稿では,視覚音声認識(VSR)における正常音声と無声音声のパフォーマンスギャップに対処する新しい距離学習手法を提案する。
本稿では,通常の音声とサイレント音声の共有リテラルコンテンツを活用し,ビセムに基づく計量学習手法を提案する。
本手法は,限られた訓練データであってもサイレントVSRの精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T16:20:46Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。