論文の概要: Comparative Experimentation of Accuracy Metrics in Automated Medical
Reporting: The Case of Otitis Consultations
- arxiv url: http://arxiv.org/abs/2311.13273v1
- Date: Wed, 22 Nov 2023 09:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 15:31:17.927058
- Title: Comparative Experimentation of Accuracy Metrics in Automated Medical
Reporting: The Case of Otitis Consultations
- Title(参考訳): 自動医療報告における精度指標の比較実験 : 耳炎相談の場合
- Authors: Wouter Faber, Renske Eline Bootsma, Tom Huibers, Sandra van Dulmen,
Sjaak Brinkkemper
- Abstract要約: 生成人工知能(Generative Artificial Intelligence)は、医療相談書の書き起こしに基づいて、自動的に医療報告を生成するために用いられる。
生成したレポートの正確さは、その正確さと有用性を保証するために確立する必要がある。
AIが生成したレポートの正確性を測定する指標はいくつかあるが、これらの指標を医療報告に適用するための作業はほとんど行われていない。
- 参考スコア(独自算出の注目度): 0.5242869847419834
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative Artificial Intelligence (AI) can be used to automatically generate
medical reports based on transcripts of medical consultations. The aim is to
reduce the administrative burden that healthcare professionals face. The
accuracy of the generated reports needs to be established to ensure their
correctness and usefulness. There are several metrics for measuring the
accuracy of AI generated reports, but little work has been done towards the
application of these metrics in medical reporting. A comparative
experimentation of 10 accuracy metrics has been performed on AI generated
medical reports against their corresponding General Practitioner's (GP) medical
reports concerning Otitis consultations. The number of missing, incorrect, and
additional statements of the generated reports have been correlated with the
metric scores. In addition, we introduce and define a Composite Accuracy Score
which produces a single score for comparing the metrics within the field of
automated medical reporting. Findings show that based on the correlation study
and the Composite Accuracy Score, the ROUGE-L and Word Mover's Distance metrics
are the preferred metrics, which is not in line with previous work. These
findings help determine the accuracy of an AI generated medical report, which
aids the development of systems that generate medical reports for GPs to reduce
the administrative burden.
- Abstract(参考訳): 生成人工知能(AI)は、医療相談の書面に基づく医療報告を自動的に生成するために用いられる。
その目的は、医療従事者が直面する管理負担を減らすことだ。
生成したレポートの正確性は、その正確性と有用性を保証するために確立する必要がある。
AIが生成したレポートの正確性を測定する指標はいくつかあるが、これらの指標を医療報告に適用するための作業はほとんど行われていない。
耳炎診察に関する一般診療報告(GP)に対するAI生成医療報告に対して,10の精度指標の比較実験が実施されている。
生成したレポートの欠落、不正、および追加のステートメントの数は、測定値と相関している。
さらに, 自動医療報告の分野における測定値を比較するために, 単一のスコアを生成する複合精度スコアについて紹介し, 定義する。
その結果、相関研究と複合正確度スコアに基づいて、ルージュlとワードムーバーの距離メトリクスが、以前の作業と一致しない指標として好まれることがわかった。
これらの発見は、GPの医療報告を生成するシステムの開発を支援するAI生成された医療レポートの正確性を決定するのに役立つ。
関連論文リスト
- Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - A GEN AI Framework for Medical Note Generation [3.7444770630637167]
MediNotesは、医療会話からSOAP(Subjective, Objective, Assessment, Plan)ノートの作成を自動化するために設計された高度な生成AIフレームワークである。
MediNotesはLarge Language Models (LLM)、Retrieval-Augmented Generation (RAG)、Automatic Speech Recognition (ASR)を統合し、テキスト入力と音声入力の両方をリアルタイムで、記録されたオーディオからキャプチャし、処理する。
論文 参考訳(メタデータ) (2024-09-27T23:05:02Z) - ReXamine-Global: A Framework for Uncovering Inconsistencies in Radiology Report Generation Metrics [3.028298624225796]
ReXamine-Globalは、さまざまな書き込みスタイルと患者集団のメトリクスをテストするフレームワークである。
本研究では,ReXamine-Globalを7つの確立されたレポート評価指標に適用し,その一般化可能性の重大なギャップを明らかにする。
論文 参考訳(メタデータ) (2024-08-29T02:03:05Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers [0.29530625605275984]
構造化報告(SR)は様々な医療社会で推奨されている。
自由テキストレポートから情報を抽出するパイプラインを提案する。
我々の研究は自然言語処理(NLP)とトランスフォーマーベースのモデルを活用することを目的としている。
論文 参考訳(メタデータ) (2024-03-27T18:38:39Z) - Enhancing Summarization Performance through Transformer-Based Prompt
Engineering in Automated Medical Reporting [0.49478969093606673]
2ショットプロンプトアプローチとスコープとドメインコンテキストの組み合わせは、他のメソッドよりも優れています。
自動化されたレポートは、人間の参照の約2倍の長さである。
論文 参考訳(メタデータ) (2023-11-22T09:51:53Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - Supervised Machine Learning Algorithm for Detecting Consistency between
Reported Findings and the Conclusions of Mammography Reports [66.89977257992568]
マンモグラフィーは患者の病態の診断を文書化する。
多くの報告は非標準用語(非BI-RADS記述子)と不完全文を含んでいる。
本研究の目的は,報告された結論と,報告された放射線学の知見に基づいて期待される結果とを比較して,そのような不一致を検出するツールを開発することである。
論文 参考訳(メタデータ) (2022-02-28T08:59:04Z) - Chest X-ray Report Generation through Fine-Grained Label Learning [46.352966049776875]
画像から詳細な所見を学習する領域認識自動胸部X線診断レポート生成アルゴリズムを提案する。
また、画像にそのような記述子を割り当てる自動ラベリングアルゴリズムを開発し、発見の粗い記述ときめ細かい記述の両方を認識する新しいディープラーニングネットワークを構築した。
論文 参考訳(メタデータ) (2020-07-27T19:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。