論文の概要: MedFactEval and MedAgentBrief: A Framework and Workflow for Generating and Evaluating Factual Clinical Summaries
- arxiv url: http://arxiv.org/abs/2509.05878v1
- Date: Sun, 07 Sep 2025 00:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.753668
- Title: MedFactEval and MedAgentBrief: A Framework and Workflow for Generating and Evaluating Factual Clinical Summaries
- Title(参考訳): MedFactEvalとMedAgentBrief:Factual Clinical Summariesの生成と評価のためのフレームワークとワークフロー
- Authors: François Grolleau, Emily Alsentzer, Timothy Keyes, Philip Chung, Akshay Swaminathan, Asad Aali, Jason Hom, Tridu Huynh, Thomas Lew, April S. Liang, Weihan Chu, Natasha Z. Steele, Christina F. Lin, Jingkun Yang, Kameron C. Black, Stephen P. Ma, Fateme N. Haredasht, Nigam H. Shah, Kevin Schulman, Jonathan H. Chen,
- Abstract要約: LLM(Large Language Model)生成臨床テキストにおける事実精度の評価は,採用にとって重要な障壁である。
MedFactEvalは、スケーラブルでファクトグラウンドで評価するフレームワークである。
モデルに依存しないマルチステップワークフローであるMedAgentBriefについて述べる。
- 参考スコア(独自算出の注目度): 5.657902269529416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating factual accuracy in Large Language Model (LLM)-generated clinical text is a critical barrier to adoption, as expert review is unscalable for the continuous quality assurance these systems require. We address this challenge with two complementary contributions. First, we introduce MedFactEval, a framework for scalable, fact-grounded evaluation where clinicians define high-salience key facts and an "LLM Jury"--a multi-LLM majority vote--assesses their inclusion in generated summaries. Second, we present MedAgentBrief, a model-agnostic, multi-step workflow designed to generate high-quality, factual discharge summaries. To validate our evaluation framework, we established a gold-standard reference using a seven-physician majority vote on clinician-defined key facts from inpatient cases. The MedFactEval LLM Jury achieved almost perfect agreement with this panel (Cohen's kappa=81%), a performance statistically non-inferior to that of a single human expert (kappa=67%, P < 0.001). Our work provides both a robust evaluation framework (MedFactEval) and a high-performing generation workflow (MedAgentBrief), offering a comprehensive approach to advance the responsible deployment of generative AI in clinical workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)が生成する臨床テキストの事実的正確性を評価することは採用にとって重要な障壁であり、専門家によるレビューは、これらのシステムが要求する継続的な品質保証には適用できない。
この課題に2つの補完的な貢献で対処する。
まず、MedFactEvalという、スケーラブルでファクトグラウンドで評価を行うフレームワークを紹介します。このフレームワークでは、臨床医が高可用性のキー事実を定義し、マルチLLM多数決である"LLM Jury"が生成された要約に含められていることを評価します。
次に、モデルに依存しないマルチステップワークフローであるMedAgentBriefを提案する。
評価枠組みの検証のために, 臨床医が定義した重要な事実について, 臨床医の多数票を用いた金基準基準を立案した。
MedFactEval LLM Juryはこのパネル(Cohen's kappa=81%)とほぼ完全に一致した。
我々の研究は、堅牢な評価フレームワーク(MedFactEval)とハイパフォーマンスな生成ワークフロー(MedAgentBrief)の両方を提供し、臨床ワークフローにおける生成AIの責任ある展開を促進するための包括的なアプローチを提供する。
関連論文リスト
- Demo: Healthcare Agent Orchestrator (HAO) for Patient Summarization in Molecular Tumor Boards [8.410395208222537]
分子腫瘍ボード(MTB)の正確かつ包括的な患者要約を生成するための医療エージェントオーケストラ(HAO)について紹介する。
予測された患者要約を真実に対して評価することは、様式的変動、順序付け、同義語の使用、表現の違いによる追加的な課題を提示する。
本稿では,生成された要約の包括性と簡潔さを評価するためのモデル・アズ・ア・ジャッジのフレームワークTBFactを提案する。
論文 参考訳(メタデータ) (2025-09-08T12:15:53Z) - MedRepBench: A Comprehensive Benchmark for Medical Report Interpretation [2.3251933592942247]
私たちはMedRepBenchを紹介します。MedRepBenchは、1,900の特定されていない現実の中国の医療レポートから構築された総合的なベンチマークです。
このベンチマークは主に、構造化された医療報告理解のためのエンドツーエンドのVLMを評価するために設計されている。
また、OCR+LLMパイプラインは、高いパフォーマンスにもかかわらず、レイアウトのブラインドネスとレイテンシの問題に悩まされていることも観察した。
論文 参考訳(メタデータ) (2025-08-21T07:52:45Z) - Expertise-aware Multi-LLM Recruitment and Collaboration for Medical Decision-Making [44.18785040972984]
本稿では,MDMシステムの精度と信頼性を高めるために,EMRC(Expertise-aware Multi-LLM Recruitment and Collaboration)フレームワークを提案する。
i) 専門知識を意識したエージェント採用と(ii) 信頼と敵主導のマルチエージェントコラボレーションの2段階で活動する。
我々は,EMRCフレームワークを3つの公開MDMデータセット上で評価し,EMRCが最先端の単一LLM法とマルチLLM法より優れていることを示す。
論文 参考訳(メタデータ) (2025-08-19T11:51:15Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation [31.061600616994145]
HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。
このフレームワークは複雑な評価タスクを専門的なサブタスクに分解し、それぞれがエキスパートモデルによって評価される。
この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。
論文 参考訳(メタデータ) (2025-01-12T07:30:49Z) - CLINICSUM: Utilizing Language Models for Generating Clinical Summaries from Patient-Doctor Conversations [2.77462589810782]
クリニックサムは、患者と医師の会話から臨床要約を自動的に生成するように設計されたフレームワークである。
自動測定(ROUGE、BERTScoreなど)と専門家による評価によって評価される。
論文 参考訳(メタデータ) (2024-12-05T15:34:02Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。