論文の概要: Revisiting Automatic Question Summarization Evaluation in the Biomedical
Domain
- arxiv url: http://arxiv.org/abs/2303.10328v1
- Date: Sat, 18 Mar 2023 04:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 20:04:12.263972
- Title: Revisiting Automatic Question Summarization Evaluation in the Biomedical
Domain
- Title(参考訳): バイオメディカル領域における自動質問要約評価の再検討
- Authors: Hongyi Yuan, Yaoyun Zhang, Fei Huang, Songfang Huang
- Abstract要約: 我々は,生物医学的質問要約タスクの4つの側面から,要約品質の人間による評価を行う。
人間の判断に基づいて、現在の自動メトリクスと要約システムで注目すべき特徴を識別する。
- 参考スコア(独自算出の注目度): 45.78632945525459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation metrics have been facilitating the rapid development of
automatic summarization methods by providing instant and fair assessments of
the quality of summaries. Most metrics have been developed for the general
domain, especially news and meeting notes, or other language-generation tasks.
However, these metrics are applied to evaluate summarization systems in
different domains, such as biomedical question summarization. To better
understand whether commonly used evaluation metrics are capable of evaluating
automatic summarization in the biomedical domain, we conduct human evaluations
of summarization quality from four different aspects of a biomedical question
summarization task. Based on human judgments, we identify different noteworthy
features for current automatic metrics and summarization systems as well. We
also release a dataset of our human annotations to aid the research of
summarization evaluation metrics in the biomedical domain.
- Abstract(参考訳): 自動評価指標は,要約の品質を瞬時かつ公平に評価することにより,自動要約手法の急速な発展を促進する。
ほとんどのメトリクスは一般的なドメイン、特にニュースやミーティングのメモ、その他の言語生成タスクのために開発されています。
しかし、これらの指標は、生物医学的質問要約のような異なる領域の要約システムを評価するために適用される。
バイオメディカル領域における自動要約を評価できるかどうかをよりよく理解するために,バイオメディカル質問要約タスクの4つの側面から,要約品質の人為的な評価を行う。
人間の判断に基づいて、現在の自動メトリクスや要約システムでも注目すべき特徴を識別する。
また,生物医学領域における要約評価指標の研究を支援するために,人間のアノテーションのデータセットも公開している。
関連論文リスト
- A Critical Look at Meta-evaluating Summarisation Evaluation Metrics [11.541368732416506]
私たちは、より堅牢な評価指標の開発を可能にする、より多様なベンチマークを構築するのに時間がかかっていると論じています。
我々は、生成された要約のコミュニケーション目標を考慮に入れた、ユーザ中心の品質次元に焦点を当てた研究を求めている。
論文 参考訳(メタデータ) (2024-09-29T01:30:13Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - An Investigation of Evaluation Metrics for Automated Medical Note
Generation [5.094623170336122]
医療談話から臨床メモの自動生成のための評価方法と指標について検討した。
自動計測値と手動判定値の相関性を検討するために,システムと参照事実を比較して,自動メモ・要約の評価を行った。
論文 参考訳(メタデータ) (2023-05-27T04:34:58Z) - Automated Metrics for Medical Multi-Document Summarization Disagree with
Human Evaluations [22.563596069176047]
自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを分析する。
自動測定を行うだけでなく、人間によって評価された品質の側面を捉えることができず、多くの場合、これらの測定によって生成されるシステムランキングは、人間のアノテーションによるランキングと反相関している。
論文 参考訳(メタデータ) (2023-05-23T05:00:59Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - Automated Lay Language Summarization of Biomedical Scientific Reviews [16.01452242066412]
健康リテラシーは適切な健康判断と治療結果の確保において重要な要素として浮上している。
医療用語とこのドメインの専門言語の複雑な構造は、健康情報を解釈するのが特に困難にします。
本稿では,生物医学的レビューの要約を自動生成する新しい課題について紹介する。
論文 参考訳(メタデータ) (2020-12-23T10:01:18Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。