論文の概要: Evaluating and Improving Automatic Speech Recognition Systems for Korean Meteorological Experts
- arxiv url: http://arxiv.org/abs/2410.18444v1
- Date: Thu, 24 Oct 2024 05:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:05.508683
- Title: Evaluating and Improving Automatic Speech Recognition Systems for Korean Meteorological Experts
- Title(参考訳): 韓国気象専門家のための音声認識システムの評価と改善
- Authors: ChaeHun Park, Hojun Cho, Jaegul Choo,
- Abstract要約: 本稿では,韓国の気象学者を対象とした自然言語クエリシステムへの自動音声認識の統合について検討する。
韓国の気象分野におけるASRシステム開発における課題に対処する。
- 参考スコア(独自算出の注目度): 35.32176244394426
- License:
- Abstract: This paper explores integrating Automatic Speech Recognition (ASR) into natural language query systems to improve weather forecasting efficiency for Korean meteorologists. We address challenges in developing ASR systems for the Korean weather domain, specifically specialized vocabulary and Korean linguistic intricacies. To tackle these issues, we constructed an evaluation dataset of spoken queries recorded by native Korean speakers. Using this dataset, we assessed various configurations of a multilingual ASR model family, identifying performance limitations related to domain-specific terminology. We then implemented a simple text-to-speech-based data augmentation method, which improved the recognition of specialized terms while maintaining general-domain performance. Our contributions include creating a domain-specific dataset, comprehensive ASR model evaluations, and an effective augmentation technique. We believe our work provides a foundation for future advancements in ASR for the Korean weather forecasting domain.
- Abstract(参考訳): 本稿では,韓国の気象学者の天気予報効率を向上させるために,ASR(Automatic Speech Recognition)を自然言語クエリシステムに統合することを検討する。
韓国の気象分野におけるASRシステム開発における課題に対処する。
これらの課題に対処するため,韓国語話者による音声クエリの評価データセットを構築した。
このデータセットを用いて、多言語ASRモデルファミリーの様々な構成を評価し、ドメイン固有の用語に関連する性能制限を特定した。
そこで本研究では,汎用ドメイン性能を維持しつつ,専門用語の認識を向上する,単純なテキスト音声データ拡張手法を実装した。
私たちのコントリビューションには、ドメイン固有のデータセットの作成、包括的なASRモデル評価、効果的な拡張テクニックなどが含まれています。
我々は,韓国の天気予報分野におけるASRの今後の進歩の基盤となると信じている。
関連論文リスト
- Advocating Character Error Rate for Multilingual ASR Evaluation [1.2597747768235845]
本稿では,単語誤り率(WER)の限界を評価指標として記述し,文字誤り率(CER)を主指標として提唱する。
我々は,CERがWERが直面している課題の多くを回避し,書き込みシステム全体の一貫性を示すことを示す。
以上の結果から,多言語ASR評価においてCERを優先的に,少なくとも補足すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T19:57:07Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions [1.3791394805787949]
アーキテクチャを変更せずに最先端のWhisperを利用する方法を提案する。
また,ドメイン固有のASRを改善するための2つのトレーニング手法を提案する。
提案手法は,実生活データセット上でのドメイン固有ASR精度を顕著に向上することを示した。
論文 参考訳(メタデータ) (2024-07-25T08:44:04Z) - XLS-R Deep Learning Model for Multilingual ASR on Low- Resource
Languages: Indonesian, Javanese, and Sundanese [0.0]
本研究は,インドネシア語,ジャワ語,スンダ語などの音声言語をテキストに変換する際のASR性能の向上を目的としている。
その結果、XLS-R300mモデルは、ジャワ語とサンダーン語のパフォーマンスをわずかに損なうことなく、競合するWord Error Rate (WER)測定を実現していることがわかった。
論文 参考訳(メタデータ) (2024-01-12T13:44:48Z) - Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition [10.244515100904144]
本研究では,大規模ドメインに依存しないASRデータセットを構築するための擬似ラベル手法を提案する。
さまざまな話題,話し方,方言,騒々しい環境,会話シナリオを含む20k時間以上のラベル付きバングラ音声データセットを開発した。
トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。
本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を実証するものである。
論文 参考訳(メタデータ) (2023-11-06T15:37:14Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - WER we are and WER we think we are [11.819335591315316]
我々は、ベンチマークデータセット上の最新の自動音声認識(ASR)システムによって達成された、非常に低い単語誤り率(WER)に関する最近の報告に対する懐疑論を表現している。
我々は、実生活における自然会話とHUB'05公開ベンチマークのデータセット上で、最先端の商用ASRシステム3つを比較した。
我々は、堅牢なASRシステムのトレーニングとテストのための高品質なアノテーションを備えた実生活のマルチドメインデータセットの作成を支援する一連のガイドラインを定式化する。
論文 参考訳(メタデータ) (2020-10-07T14:20:31Z) - DARTS-ASR: Differentiable Architecture Search for Multilingual Speech
Recognition and Adaptation [64.44349061520671]
本稿では,DARTS-ASRを用いたアーキテクチャ探索手法を提案する。
DARTS-ASRの一般化可能性を検討するために,本手法を多くの言語に応用し,単言語ASRを実行するだけでなく,多言語ASR設定にも適用する。
論文 参考訳(メタデータ) (2020-05-13T11:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。