論文の概要: A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course
Summarization
- arxiv url: http://arxiv.org/abs/2303.03948v1
- Date: Tue, 7 Mar 2023 14:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:54:12.602008
- Title: A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course
Summarization
- Title(参考訳): 長期入院コース要約のための忠実度指標のメタ評価
- Authors: Griffin Adams, Jason Zucker, No\'emie Elhadad
- Abstract要約: 病院入院の長期的臨床要約は、臨床医と患者の両方に役立つ可能性から、現実的な重要性を持っている。
本研究は,患者の短期病院講座のモデル作成要約に対して,人体アノテーションの微粒化に対する忠実度指標をベンチマークした。
- 参考スコア(独自算出の注目度): 2.8575516056239576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form clinical summarization of hospital admissions has real-world
significance because of its potential to help both clinicians and patients. The
faithfulness of summaries is critical to their safe usage in clinical settings.
To better understand the limitations of abstractive systems, as well as the
suitability of existing evaluation metrics, we benchmark faithfulness metrics
against fine-grained human annotations for model-generated summaries of a
patient's Brief Hospital Course. We create a corpus of patient hospital
admissions and summaries for a cohort of HIV patients, each with complex
medical histories. Annotators are presented with summaries and source notes,
and asked to categorize manually highlighted summary elements (clinical
entities like conditions and medications as well as actions like "following
up") into one of three categories: ``Incorrect,'' ``Missing,'' and ``Not in
Notes.'' We meta-evaluate a broad set of proposed faithfulness metrics and,
across metrics, explore the importance of domain adaptation (e.g. the impact of
in-domain pre-training and metric fine-tuning), the use of source-summary
alignments, and the effects of distilling a single metric from an ensemble of
pre-existing metrics. Off-the-shelf metrics with no exposure to clinical text
correlate well yet overly rely on summary extractiveness. As a practical guide
to long-form clinical narrative summarization, we find that most metrics
correlate best to human judgments when provided with one summary sentence at a
time and a minimal set of relevant source context.
- Abstract(参考訳): 入院患者の長期的臨床要約は、臨床医と患者の両方に役立つ可能性から、現実的な重要性がある。
要約の忠実さは臨床現場での安全な使用に不可欠である。
抽象的システムの限界と既存の評価指標の適合性をよりよく理解するために,患者の短期病院コースのモデル生成要約に対する精細なヒューマンアノテーションに対する忠実度指標をベンチマークする。
我々は、HIV患者のコホートに、患者病院の入院とサマリーのコーパスを作成し、それぞれに複雑な医療史を持つ。
注釈には要約とソースノートが添えられ、手動でハイライトされた要約要素(条件や薬品のような臨床的な実体、"フォローアップ"のようなアクション)を、"`Incorrect,''`Missing,'"と"`Not in Notes"の3つのカテゴリの1つに分類するよう求められている。
'' 提案されている広範囲な忠実度メトリクスをメタ評価し、メトリクスをまたいで、ドメイン適応の重要性(例えば、ドメイン内事前トレーニングとメトリックの微調整の影響)、ソース・サマリーアライメントの使用、既存のメトリクスのアンサンブルから単一のメトリックを蒸留する効果を探求する。
臨床テキストへの露出のない市販のメトリクスは、概略抽出性に大きく依存している。
長文臨床物語要約のための実践的ガイドとして,1回に1つの要約文と関連する情報源の最小セットが与えられた場合,ほとんどの指標が人間の判断に最もよく関連していることがわかった。
関連論文リスト
- Every Component Counts: Rethinking the Measure of Success for Medical Semantic Segmentation in Multi-Instance Segmentation Tasks [60.80828925396154]
本稿では,新しいセマンティックセグメンテーション評価プロトコルであるConnected-Component (CC)-Metricsを提案する。
本研究は,全体PET/CTにおけるセマンティックセグメンテーションの一般的な医療シナリオにおいて,この設定を動機付けている。
既存のセマンティックセグメンテーションのメトリクスが、より大きな接続コンポーネントに対するバイアスにどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-10-24T12:26:05Z) - uMedSum: A Unified Framework for Advancing Medical Abstractive Summarization [23.173826980480936]
現在の方法では、重要な情報を忠実に犠牲にしたり、情報提供の優先順位付けを行うときに信条を導入する場合が多い。
本稿では,5つの標準メトリクスを用いて,3つの多様なデータセットにまたがる6つの高度な抽象的要約手法のベンチマークを示す。
本稿では, 逐次的な断片化除去に新たなアプローチを導入し, 鍵を欠いた情報追加を行うモジュール型ハイブリッド要約フレームワーク uMedSum を提案する。
論文 参考訳(メタデータ) (2024-08-22T03:08:49Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Making the Most Out of the Limited Context Length: Predictive Power
Varies with Clinical Note Type and Note Section [70.37720062263176]
本研究では,高い予測力で区間を解析する枠組みを提案する。
MIMIC-IIIを用いて,(1)看護用音符と退院用音符とでは予測電力分布が異なること,(2)文脈長が大きい場合の音符の組み合わせにより性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-13T20:04:05Z) - An Investigation of Evaluation Metrics for Automated Medical Note
Generation [5.094623170336122]
医療談話から臨床メモの自動生成のための評価方法と指標について検討した。
自動計測値と手動判定値の相関性を検討するために,システムと参照事実を比較して,自動メモ・要約の評価を行った。
論文 参考訳(メタデータ) (2023-05-27T04:34:58Z) - Generating medically-accurate summaries of patient-provider dialogue: A
multi-stage approach using large language models [6.252236971703546]
効果的な要約は、対話におけるすべての医学的関連情報を一貫性と精度良く捉えることが要求される。
本稿では, 医療会話の要約問題に, タスクを, より小さな対話に基づくタスクに分解することで対処する。
論文 参考訳(メタデータ) (2023-05-10T08:48:53Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Towards Clinical Encounter Summarization: Learning to Compose Discharge
Summaries from Prior Notes [15.689048077818324]
本論文では,臨床遭遇のための排出要約を生成するタスクについて紹介する。
評価には,2つの新しい尺度,忠実度と幻覚率を導入する。
7つの医療部門と5つのモデルにわたる結果は、トレーサビリティをサポートする要約アーキテクチャが有望な結果をもたらすことを示しています。
論文 参考訳(メタデータ) (2021-04-27T22:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。