論文の概要: Using Data Augmentations and VTLN to Reduce Bias in Dutch End-to-End
Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2307.02009v1
- Date: Wed, 5 Jul 2023 03:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:13:30.594648
- Title: Using Data Augmentations and VTLN to Reduce Bias in Dutch End-to-End
Speech Recognition Systems
- Title(参考訳): オランダ語エンドツーエンド音声認識システムにおけるバイアス低減のためのデータ拡張とVTLN
- Authors: Tanvina Patel and Odette Scharenborg
- Abstract要約: オランダの異なる年齢層や非ネイティブ話者に対する偏見を減らすことを目的としている。
エンドツーエンド(E2E)ASRシステムでは,データ拡張技術として最先端の速度摂動とスペクトル増大を用いる。
データ拡張とVTLNの組み合わせにより、各話者群の平均WERとバイアスはそれぞれ6.9%、VTLNは3.9%減少した。
- 参考スコア(独自算出の注目度): 17.75067255600971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech technology has improved greatly for norm speakers, i.e., adult native
speakers of a language without speech impediments or strong accents. However,
non-norm or diverse speaker groups show a distinct performance gap with norm
speakers, which we refer to as bias. In this work, we aim to reduce bias
against different age groups and non-native speakers of Dutch. For an
end-to-end (E2E) ASR system, we use state-of-the-art speed perturbation and
spectral augmentation as data augmentation techniques and explore Vocal Tract
Length Normalization (VTLN) to normalise for spectral differences due to
differences in anatomy. The combination of data augmentation and VTLN reduced
the average WER and bias across various diverse speaker groups by 6.9% and
3.9%, respectively. The VTLN model trained on Dutch was also effective in
improving performance of Mandarin Chinese child speech, thus, showing
generalisability across languages
- Abstract(参考訳): 音声技術は、標準話者、すなわち、音声障害や強いアクセントのない言語の成人ネイティブ話者に対して、大幅に改善されている。
しかし、非ノルムまたは多様な話者グループは、我々がバイアスと呼ぶ通常の話者と異なるパフォーマンスの差を示している。
本研究では,オランダの異なる年齢層と非母語話者に対する偏見を低減することを目的とする。
エンドツーエンド(E2E)ASRシステムでは,データ拡張技術として最先端の速度摂動とスペクトル増大を用い,声道長正規化(VTLN)を探索し,解剖学の違いによるスペクトル差の正規化を行う。
データ拡張とvtlnの組み合わせにより、様々な話者グループの平均werとバイアスは、それぞれ6.9%と3.9%減少した。
オランダ語で訓練されたvtlnモデルも中国語音声の性能向上に有効であり,言語間の汎用性を示した。
関連論文リスト
- USAT: A Universal Speaker-Adaptive Text-to-Speech Approach [11.022840133207788]
目に見えない、データセット外話者のために、人生のようなスピーチを無視するという課題は、重要で未解決のままである。
ゼロショットアプローチは、強いアクセントを持つ話者の声を再現するために、一般化性能が不十分である。
非常に多様なアクセントを再現することができず、保存の負担が大きくなり、過度なフィットや破滅的な忘れ込みのリスクが生じる。
提案手法は,ゼロショット話者適応戦略と少数ショット話者適応戦略を一体化したものである。
論文 参考訳(メタデータ) (2024-04-28T06:50:55Z) - Task-Agnostic Low-Rank Adapters for Unseen English Dialects [52.88554155235167]
LLM(Large Language Models)は、標準アメリカ英語を好んで不均等に重み付けされたコーパスで訓練される。
HyperLoRAは、方言特化情報と方言横断情報を混同することにより、タスクに依存しない方法で未確認の方言への一般化を改善する。
論文 参考訳(メタデータ) (2023-11-02T01:17:29Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language
augmentation for Low Resource Self-Supervised Speech Models [52.92618442300405]
自己教師付き表現学習(SSRL)は、教師付きモデルと比較して下流音素認識の性能を改善した。
SSRLモデルのトレーニングには大量の事前学習データが必要である。
本稿では,低リソース条件下でのSSRLモデルの事前学習に音声拡張を用い,音素認識をダウンストリームタスクとして評価する。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - Cross-speaker style transfer for text-to-speech using data augmentation [11.686745250628247]
音声変換によるデータ拡張を用いた音声合成(TTS)における話者間通信の問題点に対処する。
対象話者から中性非表現データのコーパスを持ち、異なる話者からの会話表現データをサポートすると仮定する。
提案した技術を、7つの言語にまたがる14の話者のセットにスケールすることで、結論付けます。
論文 参考訳(メタデータ) (2022-02-10T15:10:56Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Comparison of Speech Representations for Automatic Quality Estimation in
Multi-Speaker Text-to-Speech Synthesis [21.904558308567122]
本研究の目的は,多話者テキスト音声合成の出力品質に異なる話者がどう貢献するかを特徴付けることである。
我々は、人間の平均評価スコア(MOS)に基づいてトレーニングされたニューラルネットワーク(NN)を使用して、TSの品質を自動的に評価する。
論文 参考訳(メタデータ) (2020-02-28T10:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。