Fugu-MT 論文翻訳(概要): You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish

論文の概要: You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish

arxiv url: http://arxiv.org/abs/2405.13379v1
Date: Wed, 22 May 2024 06:24:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 01:04:57.166965
Title: You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish
Title（参考訳）: スウェーデンのL1話者とL2話者のASR結果の比較
Authors: Ronald Cumbal, Birger Moell, Jose Lopes, Olof Engwall,
Abstract要約: 我々は,ASRの異なるサービスによって書き起こされたスウェーデン語の母国語,非母国語,読み,自発語に対する認識結果の差に着目した。単語誤り率を用いて認識結果を比較し、観察された転写誤りを生じる可能性のある言語的要因を解析する。
参考スコア（独自算出の注目度）: 0.5249805590164903
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The performance of Automatic Speech Recognition (ASR) systems has constantly increased in state-of-the-art development. However, performance tends to decrease considerably in more challenging conditions (e.g., background noise, multiple speaker social conversations) and with more atypical speakers (e.g., children, non-native speakers or people with speech disorders), which signifies that general improvements do not necessarily transfer to applications that rely on ASR, e.g., educational software for younger students or language learners. In this study, we focus on the gap in performance between recognition results for native and non-native, read and spontaneous, Swedish utterances transcribed by different ASR services. We compare the recognition results using Word Error Rate and analyze the linguistic factors that may generate the observed transcription errors.
Abstract（参考訳）: ASR(Automatic Speech Recognition)システムの性能は、最先端の開発において常に向上している。しかし、より困難な状況(例えば、背景雑音、複数話者の社会的会話)や、より非典型的な話者(例えば、子供、母国語話者、言語障害のある人々)では、パフォーマンスが著しく低下する傾向にある。本研究では,母国語,非母国語,読み,自発語,スウェーデン語の音声認識結果の差に着目した。単語誤り率を用いて認識結果を比較し、観察された転写誤りを生じる可能性のある言語的要因を解析する。

関連論文リスト

Automatic Speech Recognition for Non-Native English: Accuracy and Disfluency Handling [0.0]
本研究は,L2-ARCTICコーパスからの録音を用いて,英語アクセント音声の最先端5つの音声認識システムについて検討した。読み上げ音声では,Whisper と AssemblyAI がそれぞれ 0.054 と 0.056 のマッチング誤り率 (MER) で最高の精度を達成した。自発音声では,平均MERは0.063。
論文参考訳（メタデータ） (2025-03-10T05:09:44Z)
Measuring the Accuracy of Automatic Speech Recognition Solutions [4.99320937849508]
音声認識(ASR)は現在、多くの一般的なアプリケーションの一部となっている。高等教育講座の講義記録を用いて,11種類の一般的なASRサービスの性能を測定した。以上の結果から,ベンダー間および個々のオーディオサンプルに対して,精度が広範囲に及んでいることが示唆された。また,ライブイベントに使用されるASRのストリーミング品質も著しく低下した。
論文参考訳（メタデータ） (2024-08-29T06:38:55Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文参考訳（メタデータ） (2024-07-19T02:14:17Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文参考訳（メタデータ） (2024-01-05T17:58:10Z)
Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。 ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文参考訳（メタデータ） (2023-05-12T11:29:13Z)
Language Dependencies in Adversarial Attacks on Speech Recognition Systems [0.0]
我々は、ドイツ語と英語のASRシステムの攻撃可能性を比較する。一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。
論文参考訳（メタデータ） (2022-02-01T13:27:40Z)
A study on native American English speech recognition by Indian listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文参考訳（メタデータ） (2021-12-08T07:43:38Z)
Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文参考訳（メタデータ） (2021-03-28T12:52:03Z)
LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文参考訳（メタデータ） (2020-08-09T08:16:33Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。