論文の概要: Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation
- arxiv url: http://arxiv.org/abs/2211.09455v1
- Date: Thu, 17 Nov 2022 10:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:00:48.876469
- Title: Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation
- Title(参考訳): 相談チェックリスト:医療ノート作成の人間的評価の標準化
- Authors: Aleksandar Savkov, Francesco Moramarco, Alex Papadopoulos Korfiatis,
Mark Perera, Anya Belz, Ehud Reiter
- Abstract要約: 本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
- 参考スコア(独自算出の注目度): 58.54483567073125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating automatically generated text is generally hard due to the
inherently subjective nature of many aspects of the output quality. This
difficulty is compounded in automatic consultation note generation by differing
opinions between medical experts both about which patient statements should be
included in generated notes and about their respective importance in arriving
at a diagnosis. Previous real-world evaluations of note-generation systems saw
substantial disagreement between expert evaluators. In this paper we propose a
protocol that aims to increase objectivity by grounding evaluations in
Consultation Checklists, which are created in a preliminary step and then used
as a common point of reference during quality assessment. We observed good
levels of inter-annotator agreement in a first evaluation study using the
protocol; further, using Consultation Checklists produced in the study as
reference for automatic metrics such as ROUGE or BERTScore improves their
correlation with human judgements compared to using the original human note.
- Abstract(参考訳): 自動生成テキストの評価は、出力品質の多くの側面が本質的に主観的であるため、一般的に難しい。
この難易度は、患者ステートメントを作成ノートに含めるべきか、および診断に着く上でのそれぞれの重要性について、医療専門家間の意見の相違により、自動相談ノート作成において複合される。
ノートジェネレーションシステムの以前の実世界評価では、専門家評価者とはかなりの意見の相違があった。
本稿では,予備ステップで作成し,品質評価時に共通の参照点として用いる相談チェックリストの評価を基礎にすることで,客観性を高めることを目的としたプロトコルを提案する。
本プロトコルを用いた最初の評価研究において,アノテーション間合意の良好なレベルを観察した。さらに,ルージュやバートスコアなどの自動測定基準として,研究で作成した相談チェックリストを用いることで,人間の判断との相関性が原文よりも向上する。
関連論文リスト
- A Comprehensive Rubric for Annotating Pathological Speech [0.0]
音声学, 流音学, 韻律学など, 音声品質の様々な側面に基づく包括的ルーリックを導入する。
本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための標準化基準を確立することである。
論文 参考訳(メタデータ) (2024-04-29T16:44:27Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - An Investigation of Evaluation Metrics for Automated Medical Note
Generation [5.094623170336122]
医療談話から臨床メモの自動生成のための評価方法と指標について検討した。
自動計測値と手動判定値の相関性を検討するために,システムと参照事実を比較して,自動メモ・要約の評価を行った。
論文 参考訳(メタデータ) (2023-05-27T04:34:58Z) - Revisiting Automatic Question Summarization Evaluation in the Biomedical
Domain [45.78632945525459]
我々は,生物医学的質問要約タスクの4つの側面から,要約品質の人間による評価を行う。
人間の判断に基づいて、現在の自動メトリクスと要約システムで注目すべき特徴を識別する。
論文 参考訳(メタデータ) (2023-03-18T04:28:01Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - A preliminary study on evaluating Consultation Notes with Post-Editing [67.30200768442926]
医師が作成後にメモを編集して提出する半自動的なアプローチを提案します。
編集後,自動生成したコンサルテーションノートの時間節約に関する予備研究を行う。
これを時間をかけて、スクラッチからメモを書くより速いことに気付きます。
論文 参考訳(メタデータ) (2021-04-09T14:42:00Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。