論文の概要: Towards objectively evaluating the quality of generated medical
summaries
- arxiv url: http://arxiv.org/abs/2104.04412v1
- Date: Fri, 9 Apr 2021 15:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:07:46.959422
- Title: Towards objectively evaluating the quality of generated medical
summaries
- Title(参考訳): 医療用サマリーの品質を客観的に評価する
- Authors: Francesco Moramarco, Damir Juric, Aleksandar Savkov, Ehud Reiter
- Abstract要約: 我々は,評価者に対して,生数から事実,計算精度,リコール,fスコア,精度を数えるように依頼する。
本研究は,主観的品質と精度の測定が最重要事項である医療報告要約の課題に適用する。
- 参考スコア(独自算出の注目度): 70.09940409175998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method for evaluating the quality of generated text by asking
evaluators to count facts, and computing precision, recall, f-score, and
accuracy from the raw counts. We believe this approach leads to a more
objective and easier to reproduce evaluation. We apply this to the task of
medical report summarisation, where measuring objective quality and accuracy is
of paramount importance.
- Abstract(参考訳): 本研究では,エミュレータに事実のカウントを依頼し,生数から精度,リコール,fスコア,精度を算出し,生成テキストの品質を評価する手法を提案する。
このアプローチは、より客観的で、評価を再現しやすくなると信じています。
本研究は,主観的品質と精度の測定が最重要事項である医療報告要約の課題に適用する。
関連論文リスト
- A Critical Look at Meta-evaluating Summarisation Evaluation Metrics [11.541368732416506]
私たちは、より堅牢な評価指標の開発を可能にする、より多様なベンチマークを構築するのに時間がかかっていると論じています。
我々は、生成された要約のコミュニケーション目標を考慮に入れた、ユーザ中心の品質次元に焦点を当てた研究を求めている。
論文 参考訳(メタデータ) (2024-09-29T01:30:13Z) - DeepScore: A Comprehensive Approach to Measuring Quality in AI-Generated Clinical Documentation [0.0]
本稿では,DeepScribeの音質評価・管理手法の概要について述べる。
これらの方法論は、説明責任と継続的な改善を通じて、患者のケア資料の品質を高めることを目的としている。
論文 参考訳(メタデータ) (2024-09-10T23:06:48Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Revisiting Automatic Question Summarization Evaluation in the Biomedical
Domain [45.78632945525459]
我々は,生物医学的質問要約タスクの4つの側面から,要約品質の人間による評価を行う。
人間の判断に基づいて、現在の自動メトリクスと要約システムで注目すべき特徴を識別する。
論文 参考訳(メタデータ) (2023-03-18T04:28:01Z) - FactReranker: Fact-guided Reranker for Faithful Radiology Report
Summarization [42.7555185736215]
本稿では,FactRerankerを提案する。FactRerankerは,予測された事実整合性スコアに基づいて,すべての候補から最適な要約を選択する。
ファクトガイドによるリランカを,ファクト知識グラフ生成とファクトスコアアに分解する。
2つのベンチマークデータセットによる実験結果から,結果の整合性が高い要約を生成する上で,本手法が優れていることを示す。
論文 参考訳(メタデータ) (2023-03-15T02:51:57Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。