Fugu-MT 論文翻訳(概要): The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models

論文の概要: The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models

arxiv url: http://arxiv.org/abs/2402.07658v1
Date: Mon, 12 Feb 2024 14:01:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 14:04:31.359149
Title: The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models
Title（参考訳）: 医療の音 : 大規模言語モデルによる医療転写 asr の精度向上
Authors: Ayo Adedeji, Sarita Joshi, Brendan Doohan
Abstract要約: 大言語モデル(LLM)は、医学転写における音声認識システム(ASR)の精度を高めることができる。本研究は, 単語誤り率(WER), 医用概念WER(MC-WER)の精度向上, 話者ダイアリゼーション精度の向上に焦点を当てた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the rapidly evolving landscape of medical documentation, transcribing clinical dialogues accurately is increasingly paramount. This study explores the potential of Large Language Models (LLMs) to enhance the accuracy of Automatic Speech Recognition (ASR) systems in medical transcription. Utilizing the PriMock57 dataset, which encompasses a diverse range of primary care consultations, we apply advanced LLMs to refine ASR-generated transcripts. Our research is multifaceted, focusing on improvements in general Word Error Rate (WER), Medical Concept WER (MC-WER) for the accurate transcription of essential medical terms, and speaker diarization accuracy. Additionally, we assess the role of LLM post-processing in improving semantic textual similarity, thereby preserving the contextual integrity of clinical dialogues. Through a series of experiments, we compare the efficacy of zero-shot and Chain-of-Thought (CoT) prompting techniques in enhancing diarization and correction accuracy. Our findings demonstrate that LLMs, particularly through CoT prompting, not only improve the diarization accuracy of existing ASR systems but also achieve state-of-the-art performance in this domain. This improvement extends to more accurately capturing medical concepts and enhancing the overall semantic coherence of the transcribed dialogues. These findings illustrate the dual role of LLMs in augmenting ASR outputs and independently excelling in transcription tasks, holding significant promise for transforming medical ASR systems and leading to more accurate and reliable patient records in healthcare settings.
Abstract（参考訳）: 急速に発展する医学文書の展望では、正確な臨床対話の書き起こしがますます重要になっている。本研究では,医学転写における音声認識システム(ASR)の精度を高めるために,LLM(Large Language Models)の可能性を検討する。多様なプライマリ・ケア・コンサルテーションを含むPrivock57データセットを用いて, ASR 生成した転写産物の精製に高度な LLM を適用する。本研究は,本質的医学用語の正確な書き起こしのための一般語誤り率(wer),医療概念wer(mc-wer),話者ダイアリゼーション精度の向上に焦点をあてた多面的研究である。さらに,LLM後処理が意味的テキスト類似性の向上に果たす役割を評価し,臨床対話の文脈的整合性を維持する。一連の実験を通して,ゼロショットとチェーン・オブ・ソート(CoT)の有効性を比較し,ダイアリゼーションと補正精度を向上させる手法を提案する。以上の結果から,LLM,特にCoTプロンプトは既存のASRシステムのダイアリゼーション精度を向上するだけでなく,この領域の最先端性能も向上することが明らかとなった。この改良により、医療概念をより正確に把握し、転写された対話の全体的な意味的一貫性を高めることができる。以上の結果から,LSMがASR出力を増強し,独立に転写タスクに優れ,医療的ASRシステムを変換し,より正確で信頼性の高い患者記録を医療環境にもたらすことが示唆された。

関連論文リスト

High-precision medical speech recognition through synthetic data and semantic correction: UNITED-MEDASR [1.3810901729134184]
合成データ生成,高精度ASR微調整,セマンティックエンハンスメント技術を統合することで,課題に対処する新しいアーキテクチャであるUnited-MedASRを紹介する。 United-MedASRは、ICD-10、MIMS、FDAデータベースなどの権威ソースからデータを合成することによって、専門化された医療用語を構築する。処理速度を向上させるために、高速なWhisperを導入し、合理化および高速ASR性能を確保する。
論文参考訳（メタデータ） (2024-11-24T17:02:48Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Searching for Best Practices in Medical Transcription with Large Language Model [1.0855602842179624]
本稿では,Large Language Model (LLM) を用いて,高精度な医療書面を生成する手法を提案する。提案手法は,単語誤り率(WER)を低くし,重要な医療用語の正確な認識を確保するために,高度な言語モデリング技術を統合する。
論文参考訳（メタデータ） (2024-10-04T03:41:16Z)
LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation [15.520180125182756]
近年,大規模言語モデル(LLM)への音声情報統合の進歩により,音声認識(ASR)の精度が大幅に向上した。既存の手法はアクセントのような様々な音響条件下での音声エンコーダの能力に制約されることが多い。 LA-RAGは、LLMベースのASRのための新しいRAGパラダイムである。
論文参考訳（メタデータ） (2024-09-13T07:28:47Z)
MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues [41.23757609484281]
音声認識エラーは、要約のような下流タスクのパフォーマンスを著しく低下させる可能性がある。大規模言語モデルを用いたデータ拡張のための合成サンプル生成手法であるMEDSAGEを提案する。 LLMは、ASRノイズを効果的にモデル化することができ、このノイズデータをトレーニングプロセスに組み込むことで、医用対話要約システムの堅牢性と精度が大幅に向上する。
論文参考訳（メタデータ） (2024-08-26T17:04:00Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。 MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文参考訳（メタデータ） (2024-04-10T07:41:35Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Clinical Dialogue Transcription Error Correction using Seq2Seq Models [1.663938381339885]
臨床対話におけるASR転写誤り訂正のためのSeq2seq学習手法を提案する。我々は、将来の研究のために公開してきたドメイン固有のデータセットを使用して、マスク満載タスクにSeq2seqモデルを微調整する。
論文参考訳（メタデータ） (2022-05-26T18:27:17Z)
NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文参考訳（メタデータ） (2021-02-10T13:00:29Z)
Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文参考訳（メタデータ） (2020-07-04T07:15:13Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。