Fugu-MT 論文翻訳(概要): Comparative Experimentation of Accuracy Metrics in Automated Medical Reporting: The Case of Otitis Consultations

論文の概要: Comparative Experimentation of Accuracy Metrics in Automated Medical Reporting: The Case of Otitis Consultations

arxiv url: http://arxiv.org/abs/2311.13273v2
Date: Mon, 8 Jan 2024 14:19:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 22:27:08.993305
Title: Comparative Experimentation of Accuracy Metrics in Automated Medical Reporting: The Case of Otitis Consultations
Title（参考訳）: 自動医療報告における精度指標の比較実験 : 耳炎相談の場合
Authors: Wouter Faber, Renske Eline Bootsma, Tom Huibers, Sandra van Dulmen, Sjaak Brinkkemper
Abstract要約: 生成人工知能(Generative Artificial Intelligence)は、医療相談書の書き起こしに基づいて、自動的に医療報告を生成するために用いられる。生成したレポートの正確さは、その正確さと有用性を保証するために確立する必要がある。 AIが生成したレポートの正確性を測定する指標はいくつかあるが、これらの指標を医療報告に適用するための作業はほとんど行われていない。
参考スコア（独自算出の注目度）: 0.5242869847419834
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Generative Artificial Intelligence (AI) can be used to automatically generate medical reports based on transcripts of medical consultations. The aim is to reduce the administrative burden that healthcare professionals face. The accuracy of the generated reports needs to be established to ensure their correctness and usefulness. There are several metrics for measuring the accuracy of AI generated reports, but little work has been done towards the application of these metrics in medical reporting. A comparative experimentation of 10 accuracy metrics has been performed on AI generated medical reports against their corresponding General Practitioner's (GP) medical reports concerning Otitis consultations. The number of missing, incorrect, and additional statements of the generated reports have been correlated with the metric scores. In addition, we introduce and define a Composite Accuracy Score which produces a single score for comparing the metrics within the field of automated medical reporting. Findings show that based on the correlation study and the Composite Accuracy Score, the ROUGE-L and Word Mover's Distance metrics are the preferred metrics, which is not in line with previous work. These findings help determine the accuracy of an AI generated medical report, which aids the development of systems that generate medical reports for GPs to reduce the administrative burden.
Abstract（参考訳）: 生成人工知能(AI)は、医療相談の書面に基づく医療報告を自動的に生成するために用いられる。その目的は、医療従事者が直面する管理負担を減らすことだ。生成したレポートの正確性は、その正確性と有用性を保証するために確立する必要がある。 AIが生成したレポートの正確性を測定する指標はいくつかあるが、これらの指標を医療報告に適用するための作業はほとんど行われていない。耳炎診察に関する一般診療報告(GP)に対するAI生成医療報告に対して,10の精度指標の比較実験が実施されている。生成したレポートの欠落、不正、および追加のステートメントの数は、測定値と相関している。さらに, 自動医療報告の分野における測定値を比較するために, 単一のスコアを生成する複合精度スコアについて紹介し, 定義する。その結果、相関研究と複合正確度スコアに基づいて、ルージュlとワードムーバーの距離メトリクスが、以前の作業と一致しない指標として好まれることがわかった。これらの発見は、GPの医療報告を生成するシステムの開発を支援するAI生成された医療レポートの正確性を決定するのに役立つ。

関連論文リスト

CTest-Metric: A Unified Framework to Assess Clinical Validity of Metrics for CT Report Generation [8.08950963137043]
CTest-Metricは,CT RRGのメトリクスの臨床的実現可能性を決定する3つのモジュールを備えた,最初の統合された計量評価フレームワークである。モジュールテストでは, (i) LLMによるリフレッシングによるWSG, (ii) 重症度における合成エラー注入(SEI) および (iii) MvE (Metrics-vs-Expert correlation) を用いて臨床評価を行った。 8つの広く使われているメトリクス(BLEU, ROUGE, METEOR, BERTScore-F1, F1-RadGraph, Ra)
論文参考訳（メタデータ） (2026-01-16T18:09:19Z)
Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。 MIMIC-IIIでは最大10.8～15.0%、MIMIC-IVでは12.6～12.7%である。
論文参考訳（メタデータ） (2024-10-06T18:46:28Z)
A GEN AI Framework for Medical Note Generation [3.7444770630637167]
MediNotesは、医療会話からSOAP(Subjective, Objective, Assessment, Plan)ノートの作成を自動化するために設計された高度な生成AIフレームワークである。 MediNotesはLarge Language Models (LLM)、Retrieval-Augmented Generation (RAG)、Automatic Speech Recognition (ASR)を統合し、テキスト入力と音声入力の両方をリアルタイムで、記録されたオーディオからキャプチャし、処理する。
論文参考訳（メタデータ） (2024-09-27T23:05:02Z)
ReXamine-Global: A Framework for Uncovering Inconsistencies in Radiology Report Generation Metrics [3.028298624225796]
ReXamine-Globalは、さまざまな書き込みスタイルと患者集団のメトリクスをテストするフレームワークである。本研究では,ReXamine-Globalを7つの確立されたレポート評価指標に適用し,その一般化可能性の重大なギャップを明らかにする。
論文参考訳（メタデータ） (2024-08-29T02:03:05Z)
RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。 RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文参考訳（メタデータ） (2024-06-24T17:49:28Z)
Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。 MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文参考訳（メタデータ） (2024-04-10T07:41:35Z)
Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers [0.29530625605275984]
構造化報告(SR)は様々な医療社会で推奨されている。自由テキストレポートから情報を抽出するパイプラインを提案する。我々の研究は自然言語処理(NLP)とトランスフォーマーベースのモデルを活用することを目的としている。
論文参考訳（メタデータ） (2024-03-27T18:38:39Z)
Enhancing Summarization Performance through Transformer-Based Prompt Engineering in Automated Medical Reporting [0.49478969093606673]
2ショットプロンプトアプローチとスコープとドメインコンテキストの組み合わせは、他のメソッドよりも優れています。自動化されたレポートは、人間の参照の約2倍の長さである。
論文参考訳（メタデータ） (2023-11-22T09:51:53Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Human Evaluation and Correlation with Automatic Metrics in Consultation Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。 5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文参考訳（メタデータ） (2022-04-01T14:04:16Z)
Supervised Machine Learning Algorithm for Detecting Consistency between Reported Findings and the Conclusions of Mammography Reports [66.89977257992568]
マンモグラフィーは患者の病態の診断を文書化する。多くの報告は非標準用語(非BI-RADS記述子)と不完全文を含んでいる。本研究の目的は,報告された結論と,報告された放射線学の知見に基づいて期待される結果とを比較して,そのような不一致を検出するツールを開発することである。
論文参考訳（メタデータ） (2022-02-28T08:59:04Z)
Chest X-ray Report Generation through Fine-Grained Label Learning [46.352966049776875]
画像から詳細な所見を学習する領域認識自動胸部X線診断レポート生成アルゴリズムを提案する。また、画像にそのような記述子を割り当てる自動ラベリングアルゴリズムを開発し、発見の粗い記述ときめ細かい記述の両方を認識する新しいディープラーニングネットワークを構築した。
論文参考訳（メタデータ） (2020-07-27T19:50:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。