論文の概要: Benchmarking Automatic Speech Recognition for Indian Languages in Agricultural Contexts
- arxiv url: http://arxiv.org/abs/2602.03868v1
- Date: Sat, 31 Jan 2026 15:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.178881
- Title: Benchmarking Automatic Speech Recognition for Indian Languages in Agricultural Contexts
- Title(参考訳): 農業環境下におけるインド語の自動音声認識のベンチマーク
- Authors: Chandrashekar M S, Vineet Singh, Lakshmi Pedapudi,
- Abstract要約: インドにおける農業諮問サービスのデジタル化には、堅牢な自動音声認識システムが必要である。
本稿では,ヒンディー語,テルグ語,オディア語にまたがる農業環境におけるASR性能を評価するためのベンチマークフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digitization of agricultural advisory services in India requires robust Automatic Speech Recognition (ASR) systems capable of accurately transcribing domain-specific terminology in multiple Indian languages. This paper presents a benchmarking framework for evaluating ASR performance in agricultural contexts across Hindi, Telugu, and Odia languages. We introduce evaluation metrics including Agriculture Weighted Word Error Rate (AWWER) and domain-specific utility scoring to complement traditional metrics. Our evaluation of 10,934 audio recordings, each transcribed by up to 10 ASR models, reveals performance variations across languages and models, with Hindi achieving the best overall performance (WER: 16.2%) while Odia presents the greatest challenges (best WER: 35.1%, achieved only with speaker diarization). We characterize audio quality challenges inherent to real-world agricultural field recordings and demonstrate that speaker diarization with best-speaker selection can substantially reduce WER for multi-speaker recordings (upto 66% depending on the proportion of multi-speaker audio). We identify recurring error patterns in agricultural terminology and provide practical recommendations for improving ASR systems in low-resource agricultural domains. The study establishes baseline benchmarks for future agricultural ASR development.
- Abstract(参考訳): インドにおける農業諮問サービスのデジタル化には、複数のインドの言語で正確にドメイン固有の用語を記述できる堅牢な自動音声認識(ASR)システムが必要である。
本稿では,ヒンディー語,テルグ語,オディア語にまたがる農業環境におけるASR性能を評価するためのベンチマークフレームワークを提案する。
従来の指標を補完するために,農業重み付き単語誤り率(AWWER)やドメイン固有のユーティリティスコアリングなどの評価指標を導入する。
10,934の音声録音を最大10のASRモデルで書き起こし、ヒンディー語が最高性能(WER: 16.2%)を達成し、オディア語が最大の課題(WER: 35.1%、話者ダイアリゼーションでのみ達成)を示した。
実世界の農業記録に固有の音質の課題を特徴付けるとともに、ベストスピーカー選択による話者ダイアリゼーションにより、マルチスピーカ録音におけるWERを大幅に削減できることを示す(マルチスピーカオーディオの割合によっては最大66%)。
農業用語における繰り返しエラーパターンを同定し、低資源農業領域におけるASRシステム改善のための実践的勧告を提供する。
この研究は将来の農業ASR開発のための基準ベンチマークを確立する。
関連論文リスト
- Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。
自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。
ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文 参考訳(メタデータ) (2025-11-12T19:48:09Z) - KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers [0.0]
バングラデシュでは、多くの農家が、タイムリーで専門家レベルの農業指導にアクセスするための課題に直面し続けている。
本稿では,Retrieval-Augmented Generationフレームワーク上に構築された音声対応のコールセンタ統合アドバイザリプラットフォームであるKrishokBondhuについて述べる。
論文 参考訳(メタデータ) (2025-10-21T07:24:55Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。
LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。
実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文 参考訳(メタデータ) (2025-06-11T07:06:27Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Evaluating Automatic Speech Recognition Systems for Korean Meteorological Experts [48.89527378273811]
本稿では,韓国の気象学者を対象とした自然言語クエリシステムへの自動音声認識の統合について検討する。
韓国の気象分野におけるASRシステム開発における課題に対処する。
論文 参考訳(メタデータ) (2024-10-24T05:40:07Z) - LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。
LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。
異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文 参考訳(メタデータ) (2024-08-21T08:51:00Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR [14.15737970309719]
IndicWhisperはVistaarベンチマークで考慮されたASRシステムを大幅に改善することを示す。
IndicWhisperは59ベンチマーク中39ベンチマークで最低のWERを持ち、平均で4.1 WERである。
すべてのデータセット、コード、モデルをオープンソースにしています。
論文 参考訳(メタデータ) (2023-05-24T17:46:03Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。