論文の概要: A study on native American English speech recognition by Indian
listeners with varying word familiarity level
- arxiv url: http://arxiv.org/abs/2112.04151v1
- Date: Wed, 8 Dec 2021 07:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 15:28:04.858037
- Title: A study on native American English speech recognition by Indian
listeners with varying word familiarity level
- Title(参考訳): 単語親密度の異なるインド人リスナーによるネイティブアメリカン英語音声認識に関する研究
- Authors: Abhayjeet Singh, Achuth Rao MV, Rakesh Vaideeswaran, Chiranjeevi
Yarra, Prasanta Kumar Ghosh
- Abstract要約: 発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
- 参考スコア(独自算出の注目度): 62.14295630922855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, listeners of varied Indian nativities are asked to listen and
recognize TIMIT utterances spoken by American speakers. We have three kinds of
responses from each listener while they recognize an utterance: 1. Sentence
difficulty ratings, 2. Speaker difficulty ratings, and 3. Transcription of the
utterance. From these transcriptions, word error rate (WER) is calculated and
used as a metric to evaluate the similarity between the recognized and the
original sentences.The sentences selected in this study are categorized into
three groups: Easy, Medium and Hard, based on the frequency ofoccurrence of the
words in them. We observe that the sentence, speaker difficulty ratings and the
WERs increase from easy to hard categories of sentences. We also compare the
human speech recognition performance with that using three automatic speech
recognition (ASR) under following three combinations of acoustic model (AM) and
language model(LM): ASR1) AM trained with recordings from speakers of Indian
origin and LM built on TIMIT text, ASR2) AM using recordings from native
American speakers and LM built ontext from LIBRI speech corpus, and ASR3) AM
using recordings from native American speakers and LM build on LIBRI speech and
TIMIT text. We observe that HSR performance is similar to that of ASR1 whereas
ASR3 achieves the best performance. Speaker nativity wise analysis shows that
utterances from speakers of some nativity are more difficult to recognize by
Indian listeners compared to few other nativities
- Abstract(参考訳): 本研究は,インドにおける様々なナチビティの聴取者を対象に,アメリカの話者によるTIMIT発声の聴取と認識を依頼するものである。
発声を認識している間、各聴取者からの反応は3種類ある。
1.文の難易度
2.話者難易度評価及び話者難易度評価
3. 発声の転写
これらの書き起こしから、単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として使用し、その中の単語の頻度に基づいて、易度、中度、硬度の3つのグループに分類する。
文の難易度,難易度,WERが,文章の易易度から難易度へと増加するのを観察する。
また、音声モデル(am)と言語モデル(lm)の3つの組み合わせによる3つの自動音声認識(asr)を用いた音声認識性能の比較を行った。 asr1 amはインド起源の話者とティミットテキストで構築されたlmの録音で訓練され、asr2 amはネイティブアメリカンの話者の録音とlibri音声コーパスで構築されたlm、asr3 amはネイティブアメリカンの話者の録音を使用しており、lmはlibri音声とtimitテキストで構築されている。
我々は,HSR3が最高の性能を達成するのに対して,HSR1はASR1と似ていることを観察した。
話者識別に関する賢明な分析によると、一部の発話者の発話は、インド人の聴取者による認識が、他の一部の聴取者に比べて困難である。
関連論文リスト
- Reading Miscue Detection in Primary School through Automatic Speech Recognition [10.137389745562512]
本研究は,オランダ語母語話者の音声認識において,SOTA(State-of-the-art)事前学習モデルの有効性について検討した。
We found that Hubert Large finetuned on Dutch speech achieves SOTA phoneme-level child speech Recognition。
Wav2Vec2 Largeは最大リコール率0.83、Whisperは0.52、F1スコア0.52である。
論文 参考訳(メタデータ) (2024-06-11T08:41:21Z) - You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish [0.5249805590164903]
我々は,ASRの異なるサービスによって書き起こされたスウェーデン語の母国語,非母国語,読み,自発語に対する認識結果の差に着目した。
単語誤り率を用いて認識結果を比較し、観察された転写誤りを生じる可能性のある言語的要因を解析する。
論文 参考訳(メタデータ) (2024-05-22T06:24:55Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Do We Still Need Automatic Speech Recognition for Spoken Language
Understanding? [14.575551366682872]
学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。
我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
論文 参考訳(メタデータ) (2021-11-29T15:13:36Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - The Perceptimatic English Benchmark for Speech Perception Models [11.646802225841153]
ベンチマークは、ABX刺激と91人のアメリカ語を話すリスナーの反応で構成されている。
標準的な英語音声認識器であるDeepSpeechは、英語のリスナーよりも英語の音素識別に特化していることを示す。
論文 参考訳(メタデータ) (2020-05-07T12:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。