論文の概要: Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR
- arxiv url: http://arxiv.org/abs/2305.15386v2
- Date: Wed, 2 Aug 2023 13:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 17:21:30.896176
- Title: Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR
- Title(参考訳): vistaar: インド語asrのさまざまなベンチマークとトレーニングセット
- Authors: Kaushal Santosh Bhogale, Sai Sundaresan, Abhigyan Raman, Tahir Javed,
Mitesh M. Khapra, Pratyush Kumar
- Abstract要約: IndicWhisperはVistaarベンチマークで考慮されたASRシステムを大幅に改善することを示す。
IndicWhisperは59ベンチマーク中39ベンチマークで最低のWERを持ち、平均で4.1 WERである。
すべてのデータセット、コード、モデルをオープンソースにしています。
- 参考スコア(独自算出の注目度): 14.15737970309719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving ASR systems is necessary to make new LLM-based use-cases accessible
to people across the globe. In this paper, we focus on Indian languages, and
make the case that diverse benchmarks are required to evaluate and improve ASR
systems for Indian languages. To address this, we collate Vistaar as a set of
59 benchmarks across various language and domain combinations, on which we
evaluate 3 publicly available ASR systems and 2 commercial systems. We also
train IndicWhisper models by fine-tuning the Whisper models on publicly
available training datasets across 12 Indian languages totalling to 10.7K
hours. We show that IndicWhisper significantly improves on considered ASR
systems on the Vistaar benchmark. Indeed, IndicWhisper has the lowest WER in 39
out of the 59 benchmarks, with an average reduction of 4.1 WER. We open-source
all datasets, code and models.
- Abstract(参考訳): 世界中の人々に新しいLSMベースのユースケースを利用できるようにするためには、ASRシステムの改善が必要である。
本稿では,インド語に焦点をあて,インド語に対するASRシステムの評価と改善には,多様なベンチマークが必要であることを論じる。
これに対処するために、vistaarをさまざまな言語とドメインの組み合わせにわたる59のベンチマークセットとしてコラボレートし、3つのasrシステムと2つの商用システムを評価した。
また、インド12の言語で利用可能なトレーニングデータセットにwhisperモデルを微調整することで、indicwhisperモデルのトレーニングも行います。
IndicWhisperはVistaarベンチマークで考慮されたASRシステムを大幅に改善することを示す。
実際、indicwhisper は 59 ベンチマーク中 39 で最低の wer を持ち、平均 4.1 wer である。
すべてのデータセット、コード、モデルをオープンソースにしています。
関連論文リスト
- LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。
LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。
異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文 参考訳(メタデータ) (2024-08-21T08:51:00Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Svarah: Evaluating English ASR Systems on Indian Accents [12.197514367387692]
Svarahは、インド全65カ所の117人の話者から9.6時間の英語音声が書き起こされたベンチマークです。
スバラ語は、読み上げ音声と自発的会話データの両方を含み、歴史、文化、観光など様々な領域をカバーし、多様な語彙を保証する。
我々は,Svarah上での6つのオープンソースASRモデルと2つの商用ASRシステムを評価し,インドアクセントを改善するための明確な範囲があることを示した。
論文 参考訳(メタデータ) (2023-05-25T06:20:29Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Effectiveness of Mining Audio and Text Pairs from Public Data for
Improving ASR Systems for Low-Resource Languages [15.214673043019395]
Shrutilipiは、12のインドの言語で6,400時間以上のラベル付きオーディオを含むデータセットです。
平均すると、Shrutilipiは公開ラベル付きデータよりも2.3倍増加する。
We show that that Shrutilipi to the training set of Wav2Vec models to a average down of WER for 7 languages。
論文 参考訳(メタデータ) (2022-08-26T13:37:45Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。
まず、40言語を対象に、17,000時間の生音声データをキュレートする。
この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-11-06T19:34:33Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。