Fugu-MT 論文翻訳(概要): Extrinsically-Focused Evaluation of Omissions in Medical Summarization

論文の概要: Extrinsically-Focused Evaluation of Omissions in Medical Summarization

arxiv url: http://arxiv.org/abs/2311.08303v1
Date: Tue, 14 Nov 2023 16:46:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 13:11:01.700452
Title: Extrinsically-Focused Evaluation of Omissions in Medical Summarization
Title（参考訳）: 医学的要約における排便の評価
Authors: Elliot Schumacher, Daniel Rosenthal, Varun Nair, Luladay Price, Geoffrey Tso, Anitha Kannan
Abstract要約: MED-OMITは医用要約のための新しい省略ベンチマークである。医師と患者の会話と生成された要約から、MED-OMITはチャットを一連の事実に分類し、要約から省略されるものを特定する。我々は,MED-OMITを患者と医師の会話の公開データセットで評価し,MED-OMITが他の指標よりも欠落を捉えていることを確認した。
参考スコア（独自算出の注目度）: 10.02553223045504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The goal of automated summarization techniques (Paice, 1990; Kupiec et al, 1995) is to condense text by focusing on the most critical information. Generative large language models (LLMs) have shown to be robust summarizers, yet traditional metrics struggle to capture resulting performance (Goyal et al, 2022) in more powerful LLMs. In safety-critical domains such as medicine, more rigorous evaluation is required, especially given the potential for LLMs to omit important information in the resulting summary. We propose MED-OMIT, a new omission benchmark for medical summarization. Given a doctor-patient conversation and a generated summary, MED-OMIT categorizes the chat into a set of facts and identifies which are omitted from the summary. We further propose to determine fact importance by simulating the impact of each fact on a downstream clinical task: differential diagnosis (DDx) generation. MED-OMIT leverages LLM prompt-based approaches which categorize the importance of facts and cluster them as supporting or negating evidence to the diagnosis. We evaluate MED-OMIT on a publicly-released dataset of patient-doctor conversations and find that MED-OMIT captures omissions better than alternative metrics.
Abstract（参考訳）: 自動要約技術(Paice, 1990; Kupiec et al, 1995)の目標は、最も重要な情報に着目してテキストを凝縮することである。ジェネレーティブな大規模言語モデル(LLM)は堅牢な要約器であることが示されているが、従来のメトリクスはより強力なLLMで結果のパフォーマンス(Goyal et al, 2022)を捉えるのに苦労している。医学のような安全クリティカルな領域では、特にLSMが結果の要約において重要な情報を省略する可能性を考えると、より厳密な評価が必要である。 MED-OMITは医用要約のための新しい省略ベンチマークである。医師と患者の会話と生成された要約から、MED-OMITはチャットを一連の事実に分類し、要約から省略されるものを特定する。さらに,各事実が下流臨床課題に与える影響をシミュレートすることで,事実の重要性を判断することを提案する。 MED-OMIT は LLM のプロンプトに基づくアプローチを利用して、事実の重要性を分類し、それらを診断に対する証拠の支援または否定としてクラスタ化する。我々は,MED-OMITを患者と医師の会話の公開データセットで評価し,MED-OMITが他の指標よりも欠落を捉えていることを確認した。

関連論文リスト

Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Medical Hallucinations in Foundation Models and Their Impact on Healthcare [53.97060824532454]
マルチモーダルデータの処理と生成が可能なファンデーションモデルは、医療におけるAIの役割を変革した。医療幻覚を、モデルが誤解を招く医療内容を生成する場合の例と定義する。以上の結果から,Chain-of-Thought (CoT) や Search Augmented Generation などの推論手法は,幻覚率を効果的に低減できることがわかった。これらの知見は、ロバストな検出と緩和戦略のための倫理的かつ実践的な衝動を浮き彫りにした。
論文参考訳（メタデータ） (2025-02-26T02:30:44Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文参考訳（メタデータ） (2024-02-19T06:57:02Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。 10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文参考訳（メタデータ） (2023-09-14T05:15:01Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Generating medically-accurate summaries of patient-provider dialogue: A multi-stage approach using large language models [6.252236971703546]
効果的な要約は、対話におけるすべての医学的関連情報を一貫性と精度良く捉えることが要求される。本稿では, 医療会話の要約問題に, タスクを, より小さな対話に基づくタスクに分解することで対処する。
論文参考訳（メタデータ） (2023-05-10T08:48:53Z)
SPeC: A Soft Prompt-Based Calibration on Performance Variability of Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文参考訳（メタデータ） (2023-03-23T04:47:46Z)
Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。本手法が患者の退院指示生成に有効であることを示す。
論文参考訳（メタデータ） (2022-10-23T16:34:39Z)
Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。医療対話生成のためのエンドツーエンドの変分推論手法を提案する。行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文参考訳（メタデータ） (2021-05-13T04:14:35Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。