論文の概要: Evaluating Patient Safety Risks in Generative AI: Development and Validation of a FMECA Framework for Generated Clinical Content
- arxiv url: http://arxiv.org/abs/2605.04085v1
- Date: Thu, 23 Apr 2026 14:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.585758
- Title: Evaluating Patient Safety Risks in Generative AI: Development and Validation of a FMECA Framework for Generated Clinical Content
- Title(参考訳): 生成型AIにおける患者の安全性リスクの評価:生成型臨床コンテンツのためのFMECAフレームワークの開発と検証
- Authors: Lydie Bednarczyk, Jamil Zaghir, Julien Ehrsam, Maria Tcherepanova, Christian Skalafouris, Karim Gariani, Catherine Geslin, Claire-Bénédicte Rivara, Pascal Bonnabry, Laetitia Gosetto, Richard Dubos, Mina Bjelogrlic, Christophe Gaudet-Blavignac, Christian Lovis,
- Abstract要約: 障害モード、効果、臨界分析(FMECA)は、体系的なリスク識別のための積極的なフレームワークを提供する。
本研究の目的は, LLM 作成臨床サマリーにおける患者安全リスクの予測評価のための新しい FMECA フレームワークの開発と評価である。
- 参考スコア(独自算出の注目度): 0.5049603364708264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Objectives: Large language models (LLMs) are increasingly used for clinical text summarization, yet structured methods to assess associated patient safety risks remain limited. Failure Mode, Effects, and Criticality Analysis (FMECA) provides a proactive framework for systematic risk identification but has not been adapted to LLM-generated clinical content. This study aimed to develop and validate a novel FMECA framework for the prospective assessment of patient safety risks in LLM-generated clinical summaries. Materials and Methods: An interdisciplinary expert panel (n = 8) developed a taxonomy of failure modes through literature review and brainstorming. Standard FMECA dimensions (occurrence, severity, detectability) were adapted into 5-point ordinal scales. The framework was applied to 36 discharge summaries from four patients, generated by an open LLM (GPT-OSS 120B) using real-world clinical data from the Geneva University Hospitals. Reviewers independently annotated the summaries across two rounds. Inter-rater reliability was assessed at failure mode, severity and detectability score levels. Usability and content validity were evaluated using an adapted System Usability Scale and structured feedback. Results: The final framework comprised 14 failure modes organized into categories. Inter-rater agreement improved between rounds, reaching moderate-to-substantial agreement for failure mode identification and good agreement for severity and detectability scoring. Usability was rated as good (mean SUS: 79.2/100), with high evaluator confidence. Discussion and Conclusion: This study presents the first FMECA-based framework for systematic patient safety risk assessment of LLM-generated clinical summaries. The framework provides a structured and reproducible method for identifying clinically relevant risks caused by these summaries.
- Abstract(参考訳): 目的: 大規模言語モデル (LLM) は, 臨床テキスト要約にますます利用されているが, 患者の安全性リスクを評価するための構造的手法は限られている。
障害モード, 効果, 臨界度分析(FMECA)は, 組織的リスク同定のためのプロアクティブな枠組みを提供するが, LLM生成臨床内容には適応していない。
本研究の目的は, LLM 作成臨床サマリーにおける患者安全リスクの予測評価のための新しい FMECA フレームワークの開発と評価である。
資料と方法: 学際的専門家パネル(n = 8)は、文献レビューとブレインストーミングを通じて、障害モードの分類法を開発した。
標準FMECA次元(頻度,重度,検出性)は5点順序尺度に適応した。
この枠組みは、ジュネーブ大学病院の実際の臨床データを用いて、オープンLCM(GPT-OSS 120B)によって生成された4症例の総計36件に応用された。
審査員は2ラウンドで個別に要約を注釈付けした。
レータ間の信頼性は、障害モード、重症度、検出可能性スコアレベルで評価された。
システムユーザビリティ尺度と構造化されたフィードバックを用いて,ユーザビリティとコンテンツ妥当性を評価した。
結果: 最終フレームワークは14の障害モードをカテゴリにまとめました。
ラウンド間でのレター間合意は改善され、障害モードの識別と重大度および検出可能性スコアの良質な合意について中等から実質的な合意に達した。
ユーザビリティは良好(平均 SUS: 79.2/100)と評価され、評価の信頼性が高かった。
考察と結論:本研究は,LCM生成臨床要約の系統的患者安全リスク評価のための最初のFMECAベースの枠組みを提示する。
このフレームワークは、これらの要約によって引き起こされる臨床的に関連するリスクを識別するための構造化され再現可能な方法を提供する。
関連論文リスト
- Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores [5.004814662623874]
大規模言語モデル(LLM)は、臨床推論やリスクアセスメントにますます活用されている。
しかし、精神医学のような批判的・不決定的な領域における解釈的信頼性は未だ不明である。
本稿では, インシデント設計の影響に関する評価を構造化することで, 下流LLMタスクの信頼性監査を行う手法を提案する。
論文 参考訳(メタデータ) (2026-04-23T20:42:22Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - MediEval: A Unified Medical Benchmark for Patient-Contextual and Knowledge-Grounded Reasoning in LLMs [7.2159153945746795]
既存の評価は、単独で実際の医療知識をテストするか、患者レベルの推論を正当性を検証せずに評価し、重大なギャップを残している。
我々はMIMIC-IV電子健康記録とUMLSやその他のバイオメディカル語彙から構築された統一知識ベースを結びつけるベンチマークであるMediEvalを紹介する。
MediEvalは、実際の患者コンテキスト内で、さまざまな事実的および反ファクト的医療声明を生成し、4つのクアドラント・フレームワーク間で体系的な評価を可能にする。
論文 参考訳(メタデータ) (2025-12-23T22:52:24Z) - MATRIX: Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation [3.9146063017280923]
MATRIXは、臨床対話エージェントの安全性指向評価のための構造化エンジニアリングフレームワークである。
臨床シナリオ、期待されるシステム行動、障害モードの安全性に整合した分類、安全性に関連する対話障害を検出する評価ツールであるBehvJudge、シミュレーションされた患者エージェントであるPatBotを統合している。
3つの実験で、MATRIXは系統的かつスケーラブルな安全性評価を可能にすることを示した。
論文 参考訳(メタデータ) (2025-08-26T16:12:12Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。