論文の概要: An Investigation of Evaluation Metrics for Automated Medical Note
Generation
- arxiv url: http://arxiv.org/abs/2305.17364v1
- Date: Sat, 27 May 2023 04:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 19:53:19.077495
- Title: An Investigation of Evaluation Metrics for Automated Medical Note
Generation
- Title(参考訳): 医用ノート自動生成のための評価指標の検討
- Authors: Asma Ben Abacha and Wen-wai Yim and George Michalopoulos and Thomas
Lin
- Abstract要約: 医療談話から臨床メモの自動生成のための評価方法と指標について検討した。
自動計測値と手動判定値の相関性を検討するために,システムと参照事実を比較して,自動メモ・要約の評価を行った。
- 参考スコア(独自算出の注目度): 5.094623170336122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies on automatic note generation have shown that doctors can save
significant amounts of time when using automatic clinical note generation
(Knoll et al., 2022). Summarization models have been used for this task to
generate clinical notes as summaries of doctor-patient conversations (Krishna
et al., 2021; Cai et al., 2022). However, assessing which model would best
serve clinicians in their daily practice is still a challenging task due to the
large set of possible correct summaries, and the potential limitations of
automatic evaluation metrics. In this paper, we study evaluation methods and
metrics for the automatic generation of clinical notes from medical
conversations. In particular, we propose new task-specific metrics and we
compare them to SOTA evaluation metrics in text summarization and generation,
including: (i) knowledge-graph embedding-based metrics, (ii) customized
model-based metrics, (iii) domain-adapted/fine-tuned metrics, and (iv) ensemble
metrics. To study the correlation between the automatic metrics and manual
judgments, we evaluate automatic notes/summaries by comparing the system and
reference facts and computing the factual correctness, and the hallucination
and omission rates for critical medical facts. This study relied on seven
datasets manually annotated by domain experts. Our experiments show that
automatic evaluation metrics can have substantially different behaviors on
different types of clinical notes datasets. However, the results highlight one
stable subset of metrics as the most correlated with human judgments with a
relevant aggregation of different evaluation criteria.
- Abstract(参考訳): 近年のノート自動生成研究は、医師がクリニカルノート自動生成(Knoll et al., 2022)を使用する場合、かなりの時間を節約できることを示した。
この課題の要約モデルを用いて、医師と患者の会話の要約(Krishna et al., 2021; Cai et al., 2022)として臨床ノートを作成する。
しかし,どのモデルが臨床医に最善かを評価することは,適切なサマリーの集合や,自動評価指標の潜在的な限界のため,依然として困難な課題である。
本稿では,医療談話から臨床メモの自動生成のための評価方法と指標について検討する。
特に,タスク固有の指標を新たに提案し,テキスト要約・生成におけるSOTA評価指標と比較する。
(i)知識グラフ埋め込みに基づくメトリクス
(ii)カスタマイズされたモデルベースメトリクス
(iii)ドメイン適応/微調整指標、及び
(iv)アンサンブルメトリクス。
自動測定と手動判断の相関性を検討するために,システムと参照事実を比較し,事実の正確性,および重要な医学的事実に対する幻覚・欠落率を算出し,自動ノート/要約を評価する。
この研究は、ドメインの専門家が手動で注釈付けした7つのデータセットに依存した。
実験の結果, 自動評価指標は, 異なる種類の臨床記録データに対して, かなり異なる挙動を示すことがわかった。
しかし, 測定値の1つの安定な部分集合は, ヒトの判断に最も相関し, 関連する評価基準の集約を示す。
関連論文リスト
- Improving Clinical Note Generation from Complex Doctor-Patient Conversation [20.2157016701399]
大言語モデル(LLM)を用いた臨床ノート作成分野への3つの重要な貢献について述べる。
まず、CliniKnoteを紹介します。CliniKnoteは、1200の複雑な医師と患者との会話と、その全臨床ノートを組み合わせたデータセットです。
第2に,従来のSOAPcitepodder20soap(Subjective, Objective, Assessment, Plan)のメモを上位にキーワードセクションを追加することで,必須情報の迅速な識別を可能にするK-SOAPを提案する。
第3に、医師と患者との会話からK-SOAPノートを生成する自動パイプラインを開発し、様々な近代LCMをベンチマークする。
論文 参考訳(メタデータ) (2024-08-26T18:39:31Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Revisiting Automatic Question Summarization Evaluation in the Biomedical
Domain [45.78632945525459]
我々は,生物医学的質問要約タスクの4つの側面から,要約品質の人間による評価を行う。
人間の判断に基づいて、現在の自動メトリクスと要約システムで注目すべき特徴を識別する。
論文 参考訳(メタデータ) (2023-03-18T04:28:01Z) - A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course
Summarization [2.8575516056239576]
病院入院の長期的臨床要約は、臨床医と患者の両方に役立つ可能性から、現実的な重要性を持っている。
本研究は,患者の短期病院講座のモデル作成要約に対して,人体アノテーションの微粒化に対する忠実度指標をベンチマークした。
論文 参考訳(メタデータ) (2023-03-07T14:57:06Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - An Extensive Study on Cross-Dataset Bias and Evaluation Metrics
Interpretation for Machine Learning applied to Gastrointestinal Tract
Abnormality Classification [2.985964157078619]
GI領域における疾患の自動解析は、コンピュータ科学や医学関連雑誌でホットな話題となっている。
クロスデータセットによる評価指標と機械学習モデルの明確な理解は、この分野の研究を新たな品質レベルに導くために不可欠である。
16種類のGIトラクタ条件を分類できる5つの異なる機械学習モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2020-05-08T08:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。