論文の概要: Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation
- arxiv url: http://arxiv.org/abs/2509.22565v1
- Date: Fri, 26 Sep 2025 16:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.592359
- Title: Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation
- Title(参考訳): AIによる患者ポータルメッセージのための検索機能強化ガードレール:誤分類構築と大規模評価
- Authors: Wenyuan Chen, Fateme Nateghi Haredasht, Kameron C. Black, Francois Grolleau, Emily Alsentzer, Jonathan H. Chen, Stephen P. Ma,
- Abstract要約: EHRポータル経由の非同期患者・クリニックメッセージングは、クリニックのワークロードの増加源である。
1) 5つのドメインと59の粒度のエラーコードからなる臨床基礎的エラーオントロジーを導入し,(2)検索強化評価パイプラインを開発し,(3)拡張性,解釈性,階層的エラー検出を実現するためにDSPyを用いた2段階のプロンプトアーキテクチャを提供する。
- 参考スコア(独自算出の注目度): 5.555479009357263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asynchronous patient-clinician messaging via EHR portals is a growing source of clinician workload, prompting interest in large language models (LLMs) to assist with draft responses. However, LLM outputs may contain clinical inaccuracies, omissions, or tone mismatches, making robust evaluation essential. Our contributions are threefold: (1) we introduce a clinically grounded error ontology comprising 5 domains and 59 granular error codes, developed through inductive coding and expert adjudication; (2) we develop a retrieval-augmented evaluation pipeline (RAEC) that leverages semantically similar historical message-response pairs to improve judgment quality; and (3) we provide a two-stage prompting architecture using DSPy to enable scalable, interpretable, and hierarchical error detection. Our approach assesses the quality of drafts both in isolation and with reference to similar past message-response pairs retrieved from institutional archives. Using a two-stage DSPy pipeline, we compared baseline and reference-enhanced evaluations on over 1,500 patient messages. Retrieval context improved error identification in domains such as clinical completeness and workflow appropriateness. Human validation on 100 messages demonstrated superior agreement (concordance = 50% vs. 33%) and performance (F1 = 0.500 vs. 0.256) of context-enhanced labels vs. baseline, supporting the use of our RAEC pipeline as AI guardrails for patient messaging.
- Abstract(参考訳): EHRポータルを介した非同期の患者・クリニックメッセージングは、臨床の作業負荷の増大の源であり、ドラフトレスポンスを支援するために大きな言語モデル(LLM)への関心を喚起する。
しかし、LSM出力には臨床的不正確性、省略性、トーンミスマッチが含まれており、ロバストな評価が不可欠である。
提案手法は, 5 つのドメインと 59 個の粒度のエラーコードからなる臨床的根拠付きエラーオントロジーを導入すること,(2) 意味論的に類似した歴史的メッセージ応答対を利用して判断品質を向上させる検索強化評価パイプライン(RAEC)を開発すること,(3) DSPy を用いた2段階のプロンプトアーキテクチャにより,スケーラブルで解釈可能で階層的なエラー検出を実現すること,の3つである。
本手法は, 機関のアーカイブから回収した過去のメッセージ応答対について, 単独で, および類似のメッセージ応答対を参照して, ドラフトの質を評価するものである。
2段階のDSPyパイプラインを用いて,1500件以上の患者メッセージの基準値と基準値の比較を行った。
検索コンテキストは、臨床完全性やワークフローの適切性などの領域におけるエラー識別を改善した。
100メッセージに対する人間による検証では、コンセンサス=50%対33%)と、コンテキスト強化ラベル対ベースラインのパフォーマンス(F1=0.500対0.256)が向上し、患者メッセージングのAIガードレールとしてRAECパイプラインの使用がサポートされた。
関連論文リスト
- MedRepBench: A Comprehensive Benchmark for Medical Report Interpretation [2.3251933592942247]
私たちはMedRepBenchを紹介します。MedRepBenchは、1,900の特定されていない現実の中国の医療レポートから構築された総合的なベンチマークです。
このベンチマークは主に、構造化された医療報告理解のためのエンドツーエンドのVLMを評価するために設計されている。
また、OCR+LLMパイプラインは、高いパフォーマンスにもかかわらず、レイアウトのブラインドネスとレイテンシの問題に悩まされていることも観察した。
論文 参考訳(メタデータ) (2025-08-21T07:52:45Z) - Development and Comparative Evaluation of Three Artificial Intelligence Models (NLP, LLM, JEPA) for Predicting Triage in Emergency Departments: A 7-Month Retrospective Proof-of-Concept [0.0]
救急部門は、特に過度なトリアージエラー、特に過度なトリアージと過剰なトリアージに悩まされている。
本研究では3つのAIモデル(TRIAGEmaster(NLP)、URGENTIAPARSE(LLM)、EMERGINET(JEPA))をFRENCHトリアージ尺度と看護実習に対して評価した。
論文 参考訳(メタデータ) (2025-07-01T16:37:55Z) - A Dataset for Addressing Patient's Information Needs related to Clinical Course of Hospitalization [15.837772594006038]
ArchEHR-QAは、集中治療室と救急部門の設定から現実の患者をベースとした、専門家による注釈付きデータセットである。
症例は、公衆衛生フォーラムへの患者による質問、臨床医が解釈した質問、関連する臨床ノートの抜粋、および臨床医が認可した回答である。
答えファーストのプロンプトアプローチは一貫して最善を尽くし、ラマ4は最高得点を獲得した。
論文 参考訳(メタデータ) (2025-06-04T16:55:08Z) - Real-world validation of a multimodal LLM-powered pipeline for High-Accuracy Clinical Trial Patient Matching leveraging EHR data [0.0]
臨床試験における患者採用は、複雑な資格基準と労働集約性チャートのレビューによって妨げられている。
EHRから抽出した未処理文書を用いて,患者と医療のマッチングを自動化する統合フリーのLLMパイプラインを提案する。
提案手法は,(1)最も複雑な基準の評価を可能にする新たな推論-LLMパラダイム,(2)画像からテキストへの変換を欠くことなく医療記録を解釈する最新のLCMの視覚的能力,(3)効率的な医療記録検索のためのマルチモーダル埋め込みを活用する。
論文 参考訳(メタデータ) (2025-03-19T16:12:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers [0.29530625605275984]
構造化報告(SR)は様々な医療社会で推奨されている。
自由テキストレポートから情報を抽出するパイプラインを提案する。
我々の研究は自然言語処理(NLP)とトランスフォーマーベースのモデルを活用することを目的としている。
論文 参考訳(メタデータ) (2024-03-27T18:38:39Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - COMPOSE: Cross-Modal Pseudo-Siamese Network for Patient Trial Matching [70.08786840301435]
本稿では, CrOss-Modal PseudO-SiamEse Network (COMPOSE) を提案する。
実験の結果,患者基準マッチングでは98.0%,患者基準マッチングでは83.7%の精度でAUCに到達できることがわかった。
論文 参考訳(メタデータ) (2020-06-15T21:01:33Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。