論文の概要: High-precision medical speech recognition through synthetic data and semantic correction: UNITED-MEDASR
- arxiv url: http://arxiv.org/abs/2412.00055v1
- Date: Sun, 24 Nov 2024 17:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 08:47:18.813906
- Title: High-precision medical speech recognition through synthetic data and semantic correction: UNITED-MEDASR
- Title(参考訳): 合成データと意味補正による高精度医療音声認識:UNITED-MEDASR
- Authors: Sourav Banerjee, Ayushi Agarwal, Promila Ghosh,
- Abstract要約: 合成データ生成,高精度ASR微調整,セマンティックエンハンスメント技術を統合することで,課題に対処する新しいアーキテクチャであるUnited-MedASRを紹介する。
United-MedASRは、ICD-10、MIMS、FDAデータベースなどの権威ソースからデータを合成することによって、専門化された医療用語を構築する。
処理速度を向上させるために、高速なWhisperを導入し、合理化および高速ASR性能を確保する。
- 参考スコア(独自算出の注目度): 1.3810901729134184
- License:
- Abstract: Automatic Speech Recognition (ASR) systems in the clinical domain face significant challenges, notably the need to recognise specialised medical vocabulary accurately and meet stringent precision requirements. We introduce United-MedASR, a novel architecture that addresses these challenges by integrating synthetic data generation, precision ASR fine-tuning, and advanced semantic enhancement techniques. United-MedASR constructs a specialised medical vocabulary by synthesising data from authoritative sources such as ICD-10 (International Classification of Diseases, 10th Revision), MIMS (Monthly Index of Medical Specialties), and FDA databases. This enriched vocabulary helps finetune the Whisper ASR model to better cater to clinical needs. To enhance processing speed, we incorporate Faster Whisper, ensuring streamlined and high-speed ASR performance. Additionally, we employ a customised BART-based semantic enhancer to handle intricate medical terminology, thereby increasing accuracy efficiently. Our layered approach establishes new benchmarks in ASR performance, achieving a Word Error Rate (WER) of 0.985% on LibriSpeech test-clean, 0.26% on Europarl-ASR EN Guest-test, and demonstrating robust performance on Tedlium (0.29% WER) and FLEURS (0.336% WER). Furthermore, we present an adaptable architecture that can be replicated across different domains, making it a versatile solution for domain-specific ASR systems.
- Abstract(参考訳): 臨床領域における自動音声認識(ASR)システムは重要な課題に直面しており、特に専門用語を正確に認識し、厳密な精度要件を満たす必要がある。
合成データ生成,高精度ASRファインチューニング,高度なセマンティックエンハンスメント技術を統合することで,これらの課題に対処する新しいアーキテクチャであるUnited-MedASRを紹介する。
United-MedASRは、ICD-10 (International Classification of Diseases, 10th Revision)、MIMS (Monthly Index of Medical Specialties)、FDAデータベースなどの権威ソースからデータを合成することで、専門化された医療語彙を構築している。
この豊富な語彙は、Whisper ASRモデルを微調整し、臨床ニーズに適応するのに役立つ。
処理速度を向上させるために、高速なWhisperを導入し、合理化および高速ASR性能を確保する。
さらに、複雑な医療用語を扱うために、カスタマイズされたBARTベースのセマンティックエンハンサーを使用し、効率よく精度を向上する。
階層化アプローチはASR性能の新たなベンチマークを確立し,LibriSpeechテストクリーンではワードエラー率(WER)が0.985%,Europarl-ASR ENゲストテストでは0.26%,Tedlium(0.29% WER)とFLEURS(0.336% WER)で堅牢なパフォーマンスを示す。
さらに、異なるドメインにまたがって複製できる適応可能なアーキテクチャを提案し、ドメイン固有のASRシステムに汎用的なソリューションを提供する。
関連論文リスト
- Large language models are good medical coders, if provided with tools [0.0]
本研究は,ICD-10-CM自動医療符号化のための2段階リトリーブ・ランクシステムを提案する。
両方のシステムを100の単一長期医療条件のデータセットで評価する。
Retrieve-Rank システムは正しい ICD-10-CM 符号の予測において100%の精度を達成した。
論文 参考訳(メタデータ) (2024-07-06T06:58:51Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Performant ASR Models for Medical Entities in Accented Speech [0.9346027495459037]
我々は、93のアフリカアクセントの英語臨床データセットを用いて、複数のASRモデルを厳格に評価した。
分析の結果, 単語誤り率 (WER) が低いモデルではあるものの, 臨床的実体の誤差は高く, 患者の安全性に重大なリスクが生じる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-18T08:19:48Z) - The Sound of Healthcare: Improving Medical Transcription ASR Accuracy
with Large Language Models [0.0]
大言語モデル(LLM)は、医学転写における音声認識システム(ASR)の精度を高めることができる。
本研究は, 単語誤り率(WER), 医用概念WER(MC-WER)の精度向上, 話者ダイアリゼーション精度の向上に焦点を当てた。
論文 参考訳(メタデータ) (2024-02-12T14:01:12Z) - Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition [64.9816313630768]
ファインチューニングは、多くの非高齢および健康な音声事前訓練モデルを利用するためにしばしば用いられる。
本稿では,Librispeech corpus 上で事前学習した Conformer ASR システムのハイパーパラメータ適応について検討する。
論文 参考訳(メタデータ) (2023-06-27T07:49:35Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - EVA: Generating Longitudinal Electronic Health Records Using Conditional
Variational Autoencoders [34.22731849545798]
離散的な EHR の出会いと出会いの特徴を合成するための EHR Variational Autoencoder (EVA) を提案する。
EVAは現実的なシーケンスを生成でき、患者間の個人差を考慮し、特定の疾患条件で条件付けできる。
250,000人以上の患者を含む大規模な現実世界のEHRリポジトリの方法の有用性を評価します。
論文 参考訳(メタデータ) (2020-12-18T02:37:49Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。