論文の概要: Automatic Speech Recognition of African American English: Lexical and Contextual Effects
- arxiv url: http://arxiv.org/abs/2506.06888v1
- Date: Sat, 07 Jun 2025 18:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.549673
- Title: Automatic Speech Recognition of African American English: Lexical and Contextual Effects
- Title(参考訳): アフリカ系アメリカ人英語の自動音声認識 : 語彙的・文脈的効果
- Authors: Hamid Mojarad, Kevin Tang,
- Abstract要約: 本研究では,CCR(Consonant Cluster Reduction)とING-reuction(ING-reuction)の2つの重要な変数に着目した。
CCRとING-deuctionの存在がASRの誤認識を増加させるかどうかを調べる。
この分析により, LMを含まないASR系において, CCRとINGが単語誤り率(WER)に与える影響は小さいが有意であることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.9668407688201361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) models often struggle with the phonetic, phonological, and morphosyntactic features found in African American English (AAE). This study focuses on two key AAE variables: Consonant Cluster Reduction (CCR) and ING-reduction. It examines whether the presence of CCR and ING-reduction increases ASR misrecognition. Subsequently, it investigates whether end-to-end ASR systems without an external Language Model (LM) are more influenced by lexical neighborhood effect and less by contextual predictability compared to systems with an LM. The Corpus of Regional African American Language (CORAAL) was transcribed using wav2vec 2.0 with and without an LM. CCR and ING-reduction were detected using the Montreal Forced Aligner (MFA) with pronunciation expansion. The analysis reveals a small but significant effect of CCR and ING on Word Error Rate (WER) and indicates a stronger presence of lexical neighborhood effect in ASR systems without LMs.
- Abstract(参考訳): 自動音声認識(ASR)モデルは、アフリカ・アメリカン・イングリッシュ(AAE)で見られる音素、音韻、形態素に苦しむことが多い。
本研究では,共振器クラスタ削減(CCR)とING還元という2つのAAE変数に着目した。
CCRとING-deuctionの存在がASRの誤認識を増加させるかどうかを調べる。
その後、外部言語モデル(LM)を持たないエンドツーエンドのASRシステムは、語彙的近傍効果の影響を受けやすく、かつ、LMを持つシステムと比較して文脈的予測可能性に劣るかどうかを考察した。
Cous of Regional African American Language (CORAAL) は wav2vec 2.0 を用いて LM なしで転写された。
CCRとING-deuctionはモントリオール強制アリグナー(MFA)の発音拡張で検出された。
この分析により, LMを含まないASR系において, CCRとINGが単語誤り率(WER)に与える影響は小さいが有意であることが明らかとなった。
関連論文リスト
- Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Self-supervised Speech Representations Still Struggle with African American Vernacular English [28.223877889211803]
疎化言語変種話者のためのASRシステムの低性能化は、よく文書化された現象である。
AAVEとメインストリーム・アメリカン・イングリッシュのASR性能のギャップを埋めることができるかどうかを検討する。
論文 参考訳(メタデータ) (2024-08-26T13:29:25Z) - Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T02:14:17Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish [0.5249805590164903]
我々は,ASRの異なるサービスによって書き起こされたスウェーデン語の母国語,非母国語,読み,自発語に対する認識結果の差に着目した。
単語誤り率を用いて認識結果を比較し、観察された転写誤りを生じる可能性のある言語的要因を解析する。
論文 参考訳(メタデータ) (2024-05-22T06:24:55Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。
ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文 参考訳(メタデータ) (2023-05-12T11:29:13Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - The Impact of ASR on the Automatic Analysis of Linguistic Complexity and
Sophistication in Spontaneous L2 Speech [26.01253644757323]
自然発生L2音声における言語的複雑性の自動解析に用いる最先端ASRシステム
タスク型効果を制御する場合の特定のタイプの複雑さ測定に対するASRパフォーマンスのより差分効果を提示する。
論文 参考訳(メタデータ) (2021-04-17T12:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。