論文の概要: Extrinsically-Focused Evaluation of Omissions in Medical Summarization
- arxiv url: http://arxiv.org/abs/2311.08303v1
- Date: Tue, 14 Nov 2023 16:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:11:01.700452
- Title: Extrinsically-Focused Evaluation of Omissions in Medical Summarization
- Title(参考訳): 医学的要約における排便の評価
- Authors: Elliot Schumacher, Daniel Rosenthal, Varun Nair, Luladay Price,
Geoffrey Tso, Anitha Kannan
- Abstract要約: MED-OMITは医用要約のための新しい省略ベンチマークである。
医師と患者の会話と生成された要約から、MED-OMITはチャットを一連の事実に分類し、要約から省略されるものを特定する。
我々は,MED-OMITを患者と医師の会話の公開データセットで評価し,MED-OMITが他の指標よりも欠落を捉えていることを確認した。
- 参考スコア(独自算出の注目度): 10.02553223045504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of automated summarization techniques (Paice, 1990; Kupiec et al,
1995) is to condense text by focusing on the most critical information.
Generative large language models (LLMs) have shown to be robust summarizers,
yet traditional metrics struggle to capture resulting performance (Goyal et al,
2022) in more powerful LLMs. In safety-critical domains such as medicine, more
rigorous evaluation is required, especially given the potential for LLMs to
omit important information in the resulting summary. We propose MED-OMIT, a new
omission benchmark for medical summarization. Given a doctor-patient
conversation and a generated summary, MED-OMIT categorizes the chat into a set
of facts and identifies which are omitted from the summary. We further propose
to determine fact importance by simulating the impact of each fact on a
downstream clinical task: differential diagnosis (DDx) generation. MED-OMIT
leverages LLM prompt-based approaches which categorize the importance of facts
and cluster them as supporting or negating evidence to the diagnosis. We
evaluate MED-OMIT on a publicly-released dataset of patient-doctor
conversations and find that MED-OMIT captures omissions better than alternative
metrics.
- Abstract(参考訳): 自動要約技術(Paice, 1990; Kupiec et al, 1995)の目標は、最も重要な情報に着目してテキストを凝縮することである。
ジェネレーティブな大規模言語モデル(LLM)は堅牢な要約器であることが示されているが、従来のメトリクスはより強力なLLMで結果のパフォーマンス(Goyal et al, 2022)を捉えるのに苦労している。
医学のような安全クリティカルな領域では、特にLSMが結果の要約において重要な情報を省略する可能性を考えると、より厳密な評価が必要である。
MED-OMITは医用要約のための新しい省略ベンチマークである。
医師と患者の会話と生成された要約から、MED-OMITはチャットを一連の事実に分類し、要約から省略されるものを特定する。
さらに,各事実が下流臨床課題に与える影響をシミュレートすることで,事実の重要性を判断することを提案する。
MED-OMIT は LLM のプロンプトに基づくアプローチを利用して、事実の重要性を分類し、それらを診断に対する証拠の支援または否定としてクラスタ化する。
我々は,MED-OMITを患者と医師の会話の公開データセットで評価し,MED-OMITが他の指標よりも欠落を捉えていることを確認した。
関連論文リスト
- SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Generating medically-accurate summaries of patient-provider dialogue: A
multi-stage approach using large language models [6.252236971703546]
効果的な要約は、対話におけるすべての医学的関連情報を一貫性と精度良く捉えることが要求される。
本稿では, 医療会話の要約問題に, タスクを, より小さな対話に基づくタスクに分解することで対処する。
論文 参考訳(メタデータ) (2023-05-10T08:48:53Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。