論文の概要: Svarah: Evaluating English ASR Systems on Indian Accents
- arxiv url: http://arxiv.org/abs/2305.15760v1
- Date: Thu, 25 May 2023 06:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:07:09.358230
- Title: Svarah: Evaluating English ASR Systems on Indian Accents
- Title(参考訳): Svarah:インドのアクセントに基づく英語ASRシステムの評価
- Authors: Tahir Javed, Sakshi Joshi, Vignesh Nagarajan, Sai Sundaresan, Janki
Nawale, Abhigyan Raman, Kaushal Bhogale, Pratyush Kumar, Mitesh M. Khapra
- Abstract要約: Svarahは、インド全65カ所の117人の話者から9.6時間の英語音声が書き起こされたベンチマークです。
スバラ語は、読み上げ音声と自発的会話データの両方を含み、歴史、文化、観光など様々な領域をカバーし、多様な語彙を保証する。
我々は,Svarah上での6つのオープンソースASRモデルと2つの商用ASRシステムを評価し,インドアクセントを改善するための明確な範囲があることを示した。
- 参考スコア(独自算出の注目度): 12.197514367387692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: India is the second largest English-speaking country in the world with a
speaker base of roughly 130 million. Thus, it is imperative that automatic
speech recognition (ASR) systems for English should be evaluated on Indian
accents. Unfortunately, Indian speakers find a very poor representation in
existing English ASR benchmarks such as LibriSpeech, Switchboard, Speech Accent
Archive, etc. In this work, we address this gap by creating Svarah, a benchmark
that contains 9.6 hours of transcribed English audio from 117 speakers across
65 geographic locations throughout India, resulting in a diverse range of
accents. Svarah comprises both read speech and spontaneous conversational data,
covering various domains, such as history, culture, tourism, etc., ensuring a
diverse vocabulary. We evaluate 6 open source ASR models and 2 commercial ASR
systems on Svarah and show that there is clear scope for improvement on Indian
accents. Svarah as well as all our code will be publicly available.
- Abstract(参考訳): インドは英語圏で世界第2位の国で、話者数は約1億3000万人である。
したがって、インドアクセントに基づいて、英語の自動音声認識(ASR)システムを評価することが不可欠である。
残念なことに、インドの話者は、librispeech、switchboard、 speech accent archiveなどの既存の英語asrベンチマークで非常に貧弱な表現を見出している。
そこで本研究では,インド全土の65箇所に117人の話者から9.6時間分の英語音声が書き起こされ,アクセントが多様になるベンチマークであるsvarahを開発した。
スヴァーラは、話し言葉と自発的な会話データの両方を含み、歴史、文化、観光など様々な領域をカバーし、多様な語彙を保証する。
我々は,Svarah上での6つのオープンソースASRモデルと2つの商用ASRシステムを評価し,インドアクセントを改善するための明確な範囲があることを示した。
Svarahだけでなく、私たちのコードも公開されます。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。
LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。
異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文 参考訳(メタデータ) (2024-08-21T08:51:00Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR [14.15737970309719]
IndicWhisperはVistaarベンチマークで考慮されたASRシステムを大幅に改善することを示す。
IndicWhisperは59ベンチマーク中39ベンチマークで最低のWERを持ち、平均で4.1 WERである。
すべてのデータセット、コード、モデルをオープンソースにしています。
論文 参考訳(メタデータ) (2023-05-24T17:46:03Z) - An Investigation of Indian Native Language Phonemic Influences on L2
English Pronunciations [5.3956335232250385]
インドのL2英語話者の増加は、アクセントとL1-L2相互作用を研究する必要がある。
インド英語話者(IE)のアクセントを調査し、我々の観察を詳細に報告する。
既存の文献研究と80人の話者の音声で注釈付けされた発話から得られたIE発音とネイティブ言語の発音を比較して,インド語18言語がIEに与える影響を実証した。
論文 参考訳(メタデータ) (2022-12-19T07:41:39Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。
まず、40言語を対象に、17,000時間の生音声データをキュレートする。
この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-11-06T19:34:33Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。