論文の概要: Debiased Automatic Speech Recognition for Dysarthric Speech via Sample
Reweighting with Sample Affinity Test
- arxiv url: http://arxiv.org/abs/2305.13108v3
- Date: Tue, 27 Jun 2023 13:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 16:47:38.106281
- Title: Debiased Automatic Speech Recognition for Dysarthric Speech via Sample
Reweighting with Sample Affinity Test
- Title(参考訳): サンプル・アフィニティテストを用いたサンプル重み付けによる不偏性構音自動音声認識
- Authors: Eungbeom Kim, Yunkee Chae, Jaeheon Sim, Kyogu Lee
- Abstract要約: 試料親和性試験(Re-SAT)による試料再加重法を提案する。
Re-SATは、与えられたデータサンプルの脱バイアス有用度を測定し、その後、有用度に基づくサンプル再重み付けの脱バイアスによってバイアスを緩和する。
その結果,Re-SATは健常者音声のパフォーマンス劣化を伴わない変形性難聴者音声のASR改善に寄与することが示された。
- 参考スコア(独自算出の注目度): 11.223191305716071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition systems based on deep learning are mainly
trained under empirical risk minimization (ERM). Since ERM utilizes the
averaged performance on the data samples regardless of a group such as healthy
or dysarthric speakers, ASR systems are unaware of the performance disparities
across the groups. This results in biased ASR systems whose performance
differences among groups are severe. In this study, we aim to improve the ASR
system in terms of group robustness for dysarthric speakers. To achieve our
goal, we present a novel approach, sample reweighting with sample affinity test
(Re-SAT). Re-SAT systematically measures the debiasing helpfulness of the given
data sample and then mitigates the bias by debiasing helpfulness-based sample
reweighting. Experimental results demonstrate that Re-SAT contributes to
improved ASR performance on dysarthric speech without performance degradation
on healthy speech.
- Abstract(参考訳): ディープラーニングに基づく自動音声認識システムは、主に経験的リスク最小化(erm)の下で訓練される。
ERMは、健常者や変形性スピーカーなどのグループによらず、データサンプル上での平均的な性能を利用するため、ASRシステムはグループ間のパフォーマンス格差に気づいていない。
その結果,グループ間での性能差が激しいASRシステムに偏りが生じた。
本研究では,変形性難聴者に対するグループロバストネスの観点から,ASRシステムの改善を目指す。
目的を達成するために,サンプル親和性試験(Re-SAT)によるサンプル再加重法を提案する。
re-satは、与えられたデータサンプルの偏りを体系的に測定し、有益さに基づくサンプルの重み付けを偏りなくすることでバイアスを緩和する。
実験の結果,re-satは健常者におけるasr性能の向上に寄与することが明らかとなった。
関連論文リスト
- Phrase-Level Adversarial Training for Mitigating Bias in Neural Network-based Automatic Essay Scoring [0.0]
本稿では,AESモデルのバイアスとロバスト性に対処する逆エッセイセットを生成するための,モデルに依存しないフレーズレベル手法を提案する。
実験の結果, 提案手法は, 逆例やシナリオの存在下で, AESモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-07T11:22:35Z) - Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization [34.51491788470738]
本稿では,自己回帰モデルに基づく音声合成システム(TTS)の堅牢性を高めるために,リバース推論最適化(RIO)を提案する。
RIOは、RTSシステム自体によって生成された音声サンプルからRLHFで使用される例を選択するために、逆推論を使用する。
RIOは、トレーニングと推論条件の相違を低減し、ゼロショットTS性能の安定性を著しく向上する。
論文 参考訳(メタデータ) (2024-07-02T13:04:04Z) - Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。
我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。
そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文 参考訳(メタデータ) (2024-05-26T19:58:38Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - HypR: A comprehensive study for ASR hypothesis revising with a reference corpus [10.173199736362486]
本研究は,ASR仮説修正データセット(HypR)の提供に焦点を当てた。
HypRはいくつかの一般的なコーパスを含み、各発話に対して50の認識仮説を提供する。
さらに,音声認識結果の改訂における最近の研究の進展を示すために,いくつかの古典的,代表的手法の実装と比較を行った。
論文 参考訳(メタデータ) (2023-09-18T14:55:21Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。