論文の概要: Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India
- arxiv url: http://arxiv.org/abs/2604.19151v1
- Date: Tue, 21 Apr 2026 07:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.663208
- Title: Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India
- Title(参考訳): インドの音声:インドにおけるリアルタイム音声認識のための大規模ベンチマーク
- Authors: Kaushal Bhogale, Manas Dhir, Amritansh Walecha, Manmeet Kaur, Vanshika Chhabra, Aaditya Pareek, Hanuman Sidh, Sagar Jain, Bhaskar Singh, Utkarsh Singh, Tahir Javed, Shobhit Banga, Mitesh M. Khapra,
- Abstract要約: Voice of India(ボイス・オブ・インディア)は、139の地域クラスタにわたる15の主要なインドの言語をカバーする、未記述の電話会話から構築されたクローズドソースベンチマークである。
データセットには306230の発話が含まれており、スペルのバリエーションを考慮した36691人の話者から合計536時間の音声が含まれている。
- 参考スコア(独自算出の注目度): 13.263260192783195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Indic ASR benchmarks often use scripted, clean speech and leaderboard driven evaluation that encourages dataset specific overfitting. In addition, strict single reference WER penalizes natural spelling variation in Indian languages, including non standardized spellings of code-mixed English origin words. To address these limitations, we introduce Voice of India, a closed source benchmark built from unscripted telephonic conversations covering 15 major Indian languages across 139 regional clusters. The dataset contains 306230 utterances, totaling 536 hours of speech from 36691 speakers with transcripts accounting for spelling variations. We also analyze performance geographically at the district level, revealing disparities. Finally, we provide detailed analysis across factors such as audio quality, speaking rate, gender, and device type, highlighting where current ASR systems struggle and offering insights for improving real world Indic ASR systems.
- Abstract(参考訳): 既存のIndic ASRベンチマークでは、しばしばスクリプト付きクリーンなスピーチと、データセット固有のオーバーフィッティングを促進するリーダボードによる評価が使用されている。
さらに、厳格な単一参照 WER は、コード混在の英単語の非標準綴りを含む、インドの言語の自然な綴り変化を罰する。
これらの制限に対処するために、Voice of Indiaを紹介します。Voice of Indiaは、139の地域クラスタにわたる15の主要なインドの言語をカバーする、未記述の電話会話から構築されたクローズドソースベンチマークです。
データセットには306230の発話が含まれており、スペルのバリエーションを考慮した36691人の話者から合計536時間の音声が含まれている。
また、地域レベルでの地理的なパフォーマンス分析を行い、格差を明らかにした。
最後に、音声品質、発話率、性別、デバイスタイプなどの要因を詳細に分析し、現在のASRシステムがどこで苦労しているかを強調し、現実世界のIndic ASRシステムを改善するための洞察を提供する。
関連論文リスト
- MUSCAT: MUltilingual, SCientific ConversATion Benchmark [60.87925076316812]
多言語音声技術の目標は、異なる言語を話す個人間のシームレスなコミュニケーションを容易にすることである。
この経験を生み出すためには、音声技術は、混合多言語入力、特定の語彙、コードスイッチングといったいくつかの課題に対処する必要がある。
本稿では,これらの課題に対処できるかどうかを問う,現在の音声認識(ASR)システムを評価するための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-04-17T10:39:01Z) - Benchmarking Automatic Speech Recognition for Indian Languages in Agricultural Contexts [0.0]
インドにおける農業諮問サービスのデジタル化には、堅牢な自動音声認識システムが必要である。
本稿では,ヒンディー語,テルグ語,オディア語にまたがる農業環境におけるASR性能を評価するためのベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-31T15:04:21Z) - LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。
LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。
異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文 参考訳(メタデータ) (2024-08-21T08:51:00Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Semantically Corrected Amharic Automatic Speech Recognition [27.569469583183423]
私たちはアフリカ東部で5000万人以上の人々が話しているアムハラ語のためのASRツールセットを構築しています。
既存のAmharic ASRテストデータセットの書き起こしを修正し、コミュニティが進捗を正確に評価できるようにする。
本稿では,トランスフォーマーエンコーダデコーダアーキテクチャを用いて,生のASR出力を文法的に完全かつ意味論的に意味のあるアムハラ語文に整理する後処理手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T12:08:00Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。