論文の概要: Enhancing ASR Performance in the Medical Domain for Dravidian Languages
- arxiv url: http://arxiv.org/abs/2604.19797v1
- Date: Fri, 10 Apr 2026 09:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.088834
- Title: Enhancing ASR Performance in the Medical Domain for Dravidian Languages
- Title(参考訳): ドラビダ語医学領域におけるASR性能の向上
- Authors: Sri Charan Devarakonda, Ravi Sastry Kolluru, Manjula Sri Rayudu, Rashmi Kapoor, Madhu G, Anil Kumar Vuppala,
- Abstract要約: 本研究は,実音声データと合成音声データを統合した,信頼度に配慮した新たなトレーニングフレームワークを提案する。
5 グラムの KenLM 言語モデルを用いて復号後の訂正を行う。
その結果,学習可能な重み付きハイブリッド信頼度認識手法は認識誤差を大幅に低減することがわかった。
- 参考スコア(独自算出の注目度): 4.188779570200089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) for low-resource Dravidian languages like Telugu and Kannada faces significant challenges in specialized medical domains due to limited annotated data and morphological complexity. This work proposes a novel confidence-aware training framework that integrates real and synthetic speech data through a hybrid confidence mechanism combining static perceptual and acoustic similarity metrics with dynamic model entropy. Unlike direct fine-tuning approaches, the proposed methodology employs both fixed-weight and learnable-weight confidence aggregation strategies to guide sample weighting during training, enabling effective utilization of heterogeneous data sources. The framework is evaluated on Telugu and Kannada medical datasets containing both real recordings and TTS-generated synthetic speech. A 5-gram KenLM language model is applied for post-decoding correction. Results show that the hybrid confidence-aware approach with learnable weights substantially reduces recognition errors: Telugu Word Error Rate (WER) decreases from 24.3% to 15.8% (8.5% absolute improvement), while Kannada WER drops from 31.7% to 25.4% (6.3% absolute improvement), both significantly outperforming standard fine-tuning baselines. These findings confirm that combining adaptive confidence-aware training with statistical language modeling delivers superior performance for domain-specific ASR in morphologically complex Dravidian languages.
- Abstract(参考訳): テルグ語やカナダ語のような低リソースのドラヴィダ語のための自動音声認識(ASR)は、注釈付きデータや形態的複雑さによって、専門の医療領域において重大な課題に直面している。
本研究は,動的モデルエントロピーと静的知覚的および音響的類似度指標を組み合わせたハイブリッド信頼機構により,実・合成音声データを統合する新しい信頼度学習フレームワークを提案する。
直接微調整手法とは異なり、本手法では、トレーニング中のサンプル重み付けをガイドするために、固定重み付けと学習可能重み付けアグリゲーション戦略の両方を用いて、異種データソースの有効利用を可能にする。
本フレームワークは,TTS合成音声と実記録の両方を含むTeluguとKannadaの医療データセットを用いて評価した。
5 グラムの KenLM 言語モデルを用いて復号後の訂正を行う。
テルーグ語誤り率(WER)は24.3%から15.8%(絶対改善率8.5%)に低下し、カナダWERは31.7%から25.4%(絶対改善率6.3%)に低下し、標準微調整ベースラインを著しく上回った。
これらの結果から,適応型信頼度学習と統計的言語モデリングを組み合わせることで,形態的に複雑なDravidian言語におけるドメイン固有ASRの性能が向上することが確認された。
関連論文リスト
- Human-Guided Reasoning with Large Language Models for Vietnamese Speech Emotion Recognition [1.744935381873858]
本稿では,人間の知識を学習プロセスに統合する人間と機械の協調的な枠組みを提案する。
簡単なサンプルとあいまいなサンプルを区別するために、信頼に基づくルーティング機構が導入された。
ベトナム語の音声データセットを用いて、3つの感情クラスにわたる2,764のサンプルを実験した。
論文 参考訳(メタデータ) (2026-04-02T07:24:14Z) - Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards [8.109014000578766]
ASR-TRAは、因果介入に触発された新しいテストタイム強化適応フレームワークである。
提案手法は,既存のTTAベースラインよりも低レイテンシを維持しながら高い精度を実現する。
我々のアプローチは、現実の状況に挑戦する上で、ASRシステムをデプロイするための実用的で堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2026-03-05T14:43:15Z) - Lightweight Diffusion-based Framework for Online Imagined Speech Decoding in Aphasia [1.299941371793082]
拡散に基づくニューラルデコーディングフレームワークは、失語症患者のリアルタイムな仮想音声分類に最適化されている。
二重基準早期停止戦略により、限られたキャリブレーションデータの下での迅速な収束が可能となった。
提案するフレームワークは,脳-コンピュータインタフェースを臨床コミュニケーション支援に向けて翻訳する。
論文 参考訳(メタデータ) (2025-11-11T07:18:35Z) - MoSEs: Uncertainty-Aware AI-Generated Text Detection via Mixture of Stylistics Experts with Conditional Thresholds [50.94175872742232]
本稿では,スタイリスティックスを意識した定量化の不確実性を実現するためのMixture of Stylistic Experts (MoSEs) フレームワークを提案する。
MoSEには、Stylistics Reference Repository (SRR)、Stylistics-Aware Router (SAR)、Conditional Threshold Estimator (CTE)の3つのコアコンポーネントが含まれている。
判別スコアにより、MoSEは対応する信頼度レベルで予測ラベルを出力する。
論文 参考訳(メタデータ) (2025-09-02T16:51:43Z) - High-precision medical speech recognition through synthetic data and semantic correction: UNITED-MEDASR [1.3810901729134184]
合成データ生成,高精度ASR微調整,セマンティックエンハンスメント技術を統合することで,課題に対処する新しいアーキテクチャであるUnited-MedASRを紹介する。
United-MedASRは、ICD-10、MIMS、FDAデータベースなどの権威ソースからデータを合成することによって、専門化された医療用語を構築する。
処理速度を向上させるために、高速なWhisperを導入し、合理化および高速ASR性能を確保する。
論文 参考訳(メタデータ) (2024-11-24T17:02:48Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Knowledge Transfer from Pre-trained Language Models to Cif-based Speech
Recognizers via Hierarchical Distillation [22.733285434532068]
大規模事前学習型言語モデル(PLM)は、自然言語処理タスクにおいて大きな可能性を示している。
本稿では,CIFモデルに基づく階層的知識蒸留(HKD)を提案する。
従来のCIFモデルと比較すると,AISHELL-1とLibriSpeechのデータセットに対して15%と9%の相対誤差率削減を実現している。
論文 参考訳(メタデータ) (2023-01-30T15:44:55Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。