論文の概要: Improving Speech Recognition for African American English With Audio
Classification
- arxiv url: http://arxiv.org/abs/2309.09996v1
- Date: Sat, 16 Sep 2023 19:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 18:28:39.199911
- Title: Improving Speech Recognition for African American English With Audio
Classification
- Title(参考訳): 音声分類によるアフリカ系アメリカ人英語の音声認識改善
- Authors: Shefali Garg, Zhouyuan Huo, Khe Chai Sim, Suzan Schwartz, Mason Chua,
Al\"ena Aks\"enova, Tsendsuren Munkhdalai, Levi King, Darryl Wright, Zion
Mengesha, Dongseong Hwang, Tara Sainath, Fran\c{c}oise Beaufays, Pedro Moreno
Mengibar
- Abstract要約: 本稿では,少数のドメイン外データを用いて,米国英語短波形音声認識器の頑健性を向上させる新しい手法を提案する。
このデータを微調整すると、MAEの品質を低下させることなくAAEとMAEの間で38.5%の単語誤り率格差が減少する。
- 参考スコア(独自算出の注目度): 17.785482810741367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) systems have been shown to have large
quality disparities between the language varieties they are intended or
expected to recognize. One way to mitigate this is to train or fine-tune models
with more representative datasets. But this approach can be hindered by limited
in-domain data for training and evaluation. We propose a new way to improve the
robustness of a US English short-form speech recognizer using a small amount of
out-of-domain (long-form) African American English (AAE) data. We use CORAAL,
YouTube and Mozilla Common Voice to train an audio classifier to approximately
output whether an utterance is AAE or some other variety including Mainstream
American English (MAE). By combining the classifier output with coarse
geographic information, we can select a subset of utterances from a large
corpus of untranscribed short-form queries for semi-supervised learning at
scale. Fine-tuning on this data results in a 38.5% relative word error rate
disparity reduction between AAE and MAE without reducing MAE quality.
- Abstract(参考訳): 自動音声認識システム(ASR)は、意図または認識される言語品種間の品質格差が大きいことが示されている。
これを軽減する方法のひとつは、より代表的なデータセットを持つモデルをトレーニングしたり、微調整したりすることです。
しかしこのアプローチは、トレーニングと評価のためのドメイン内の限られたデータによって妨げられます。
そこで本稿では,少数の領域外(長文)アフリカ・アメリカン・イングリッシュ(AAE)データを用いて,米国英語短文音声認識器の堅牢性を向上させる新しい手法を提案する。
我々は、CORAAL、YouTube、Mozilla Common Voiceを使って音声分類器を訓練し、発話がAEか、メインストリーム・アメリカン・イングリッシュ(MAE)を含む他の諸種かをおよそ出力する。
分類器出力と粗い地理情報を組み合わせることで、大規模に半教師付き学習を行うために、未転写短文クエリの大きなコーパスから発話のサブセットを選択することができる。
このデータを微調整すると、MAEの品質を低下させることなくAAEとMAEの間で38.5%の単語誤り率格差が減少する。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Self-supervised Speech Representations Still Struggle with African American Vernacular English [28.223877889211803]
疎化言語変種話者のためのASRシステムの低性能化は、よく文書化された現象である。
AAVEとメインストリーム・アメリカン・イングリッシュのASR性能のギャップを埋めることができるかどうかを検討する。
論文 参考訳(メタデータ) (2024-08-26T13:29:25Z) - Improving Accented Speech Recognition with Multi-Domain Training [2.28438857884398]
我々は、4つの異なるフランス語アクセントを表す音声を用いて、事前訓練されたASRモデルの堅牢性を改善する微調整データセットを作成する。
数値実験により,アフリカやベルギーのアクセントに対して,誤り率を最大25%(相対的に)下げることができた。
論文 参考訳(メタデータ) (2023-03-14T14:10:16Z) - Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文 参考訳(メタデータ) (2023-03-01T20:05:19Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。