論文の概要: You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish
- arxiv url: http://arxiv.org/abs/2405.13379v1
- Date: Wed, 22 May 2024 06:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:04:57.166965
- Title: You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish
- Title(参考訳): スウェーデンのL1話者とL2話者のASR結果の比較
- Authors: Ronald Cumbal, Birger Moell, Jose Lopes, Olof Engwall,
- Abstract要約: 我々は,ASRの異なるサービスによって書き起こされたスウェーデン語の母国語,非母国語,読み,自発語に対する認識結果の差に着目した。
単語誤り率を用いて認識結果を比較し、観察された転写誤りを生じる可能性のある言語的要因を解析する。
- 参考スコア(独自算出の注目度): 0.5249805590164903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Automatic Speech Recognition (ASR) systems has constantly increased in state-of-the-art development. However, performance tends to decrease considerably in more challenging conditions (e.g., background noise, multiple speaker social conversations) and with more atypical speakers (e.g., children, non-native speakers or people with speech disorders), which signifies that general improvements do not necessarily transfer to applications that rely on ASR, e.g., educational software for younger students or language learners. In this study, we focus on the gap in performance between recognition results for native and non-native, read and spontaneous, Swedish utterances transcribed by different ASR services. We compare the recognition results using Word Error Rate and analyze the linguistic factors that may generate the observed transcription errors.
- Abstract(参考訳): ASR(Automatic Speech Recognition)システムの性能は、最先端の開発において常に向上している。
しかし、より困難な状況(例えば、背景雑音、複数話者の社会的会話)や、より非典型的な話者(例えば、子供、母国語話者、言語障害のある人々)では、パフォーマンスが著しく低下する傾向にある。
本研究では,母国語,非母国語,読み,自発語,スウェーデン語の音声認識結果の差に着目した。
単語誤り率を用いて認識結果を比較し、観察された転写誤りを生じる可能性のある言語的要因を解析する。
関連論文リスト
- Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T02:14:17Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。
ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文 参考訳(メタデータ) (2023-05-12T11:29:13Z) - Language Dependencies in Adversarial Attacks on Speech Recognition
Systems [0.0]
我々は、ドイツ語と英語のASRシステムの攻撃可能性を比較する。
一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。
論文 参考訳(メタデータ) (2022-02-01T13:27:40Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - ASR-GLUE: A New Multi-task Benchmark for ASR-Robust Natural Language
Understanding [42.80343041535763]
自動音声認識(ASR)による誤りに対する自然言語理解システムの堅牢性について検討する。
ASR-GLUEベンチマーク(ASR-GLUE benchmark)は、ASRエラー下でのモデルの性能を評価するための6つの異なるNLUタスクの新たなコレクションである。
論文 参考訳(メタデータ) (2021-08-30T08:11:39Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。