論文の概要: The Sound of Healthcare: Improving Medical Transcription ASR Accuracy
with Large Language Models
- arxiv url: http://arxiv.org/abs/2402.07658v1
- Date: Mon, 12 Feb 2024 14:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:04:31.359149
- Title: The Sound of Healthcare: Improving Medical Transcription ASR Accuracy
with Large Language Models
- Title(参考訳): 医療の音 : 大規模言語モデルによる医療転写 asr の精度向上
- Authors: Ayo Adedeji, Sarita Joshi, Brendan Doohan
- Abstract要約: 大言語モデル(LLM)は、医学転写における音声認識システム(ASR)の精度を高めることができる。
本研究は, 単語誤り率(WER), 医用概念WER(MC-WER)の精度向上, 話者ダイアリゼーション精度の向上に焦点を当てた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving landscape of medical documentation, transcribing
clinical dialogues accurately is increasingly paramount. This study explores
the potential of Large Language Models (LLMs) to enhance the accuracy of
Automatic Speech Recognition (ASR) systems in medical transcription. Utilizing
the PriMock57 dataset, which encompasses a diverse range of primary care
consultations, we apply advanced LLMs to refine ASR-generated transcripts. Our
research is multifaceted, focusing on improvements in general Word Error Rate
(WER), Medical Concept WER (MC-WER) for the accurate transcription of essential
medical terms, and speaker diarization accuracy. Additionally, we assess the
role of LLM post-processing in improving semantic textual similarity, thereby
preserving the contextual integrity of clinical dialogues. Through a series of
experiments, we compare the efficacy of zero-shot and Chain-of-Thought (CoT)
prompting techniques in enhancing diarization and correction accuracy. Our
findings demonstrate that LLMs, particularly through CoT prompting, not only
improve the diarization accuracy of existing ASR systems but also achieve
state-of-the-art performance in this domain. This improvement extends to more
accurately capturing medical concepts and enhancing the overall semantic
coherence of the transcribed dialogues. These findings illustrate the dual role
of LLMs in augmenting ASR outputs and independently excelling in transcription
tasks, holding significant promise for transforming medical ASR systems and
leading to more accurate and reliable patient records in healthcare settings.
- Abstract(参考訳): 急速に発展する医学文書の展望では、正確な臨床対話の書き起こしがますます重要になっている。
本研究では,医学転写における音声認識システム(ASR)の精度を高めるために,LLM(Large Language Models)の可能性を検討する。
多様なプライマリ・ケア・コンサルテーションを含むPrivock57データセットを用いて, ASR 生成した転写産物の精製に高度な LLM を適用する。
本研究は,本質的医学用語の正確な書き起こしのための一般語誤り率(wer),医療概念wer(mc-wer),話者ダイアリゼーション精度の向上に焦点をあてた多面的研究である。
さらに,LLM後処理が意味的テキスト類似性の向上に果たす役割を評価し,臨床対話の文脈的整合性を維持する。
一連の実験を通して,ゼロショットとチェーン・オブ・ソート(CoT)の有効性を比較し,ダイアリゼーションと補正精度を向上させる手法を提案する。
以上の結果から,LLM,特にCoTプロンプトは既存のASRシステムのダイアリゼーション精度を向上するだけでなく,この領域の最先端性能も向上することが明らかとなった。
この改良により、医療概念をより正確に把握し、転写された対話の全体的な意味的一貫性を高めることができる。
以上の結果から,LSMがASR出力を増強し,独立に転写タスクに優れ,医療的ASRシステムを変換し,より正確で信頼性の高い患者記録を医療環境にもたらすことが示唆された。
関連論文リスト
- Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Resolving Transcription Ambiguity in Spanish: A Hybrid Acoustic-Lexical
System for Punctuation Restoration [0.4821250031784094]
本稿では,スペイン語転写のためのハイブリッド音響-語彙句読解システムを提案する。
実験の結果,提案システムは質問点のF1スコアと全体的な句読点回復を効果的に改善できることがわかった。
論文 参考訳(メタデータ) (2024-02-05T21:05:35Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Clinical Dialogue Transcription Error Correction using Seq2Seq Models [1.663938381339885]
臨床対話におけるASR転写誤り訂正のためのSeq2seq学習手法を提案する。
我々は、将来の研究のために公開してきたドメイン固有のデータセットを使用して、マスク満載タスクにSeq2seqモデルを微調整する。
論文 参考訳(メタデータ) (2022-05-26T18:27:17Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Towards an Automated SOAP Note: Classifying Utterances from Medical
Conversations [0.6875312133832078]
我々は、(i)SOAPセクションと(ii)話者の役割に従って、医療会話から発話を分類するためのギャップを橋渡しします。
本稿では,既存のディープラーニングアーキテクチャを上記の2つのタスクに適応させるシステム分析を提案する。
その結果,単語レベルと発話レベルの両方をキャプチャする階層的な文脈をモデル化することで,両者の分類作業を大幅に改善することが示唆された。
論文 参考訳(メタデータ) (2020-07-17T04:19:30Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。