論文の概要: MedPI: Evaluating AI Systems in Medical Patient-facing Interactions
- arxiv url: http://arxiv.org/abs/2601.04195v1
- Date: Tue, 02 Dec 2025 19:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.505959
- Title: MedPI: Evaluating AI Systems in Medical Patient-facing Interactions
- Title(参考訳): MedPI: 医療従事者のインタラクションにおけるAIシステムの評価
- Authors: Diego Fajardo V., Oleksii Proniakin, Victoria-Elisabeth Gruber, Razvan Marinescu,
- Abstract要約: 患者・クリニック会話における大規模言語モデル(LLM)の評価のための高次元ベンチマークであるMedPIを提案する。
MedPIは、医療プロセス、治療安全性、治療結果、医師と患者とのコミュニケーションを含む105次元の医療対話を評価する。
我々は、Claude Opus 4.1, Claude Sonnet 4, MedGemma, Gemini 2.5 Pro, Llama 3.3 70b Instruct, GPT-5, GPT OSS 120b, o3, Grok-4という9つのフラッグシップモデルを、366人のAI患者と7,097人の会話で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present MedPI, a high-dimensional benchmark for evaluating large language models (LLMs) in patient-clinician conversations. Unlike single-turn question-answer (QA) benchmarks, MedPI evaluates the medical dialogue across 105 dimensions comprising the medical process, treatment safety, treatment outcomes and doctor-patient communication across a granular, accreditation-aligned rubric. MedPI comprises five layers: (1) Patient Packets (synthetic EHR-like ground truth); (2) an AI Patient instantiated through an LLM with memory and affect; (3) a Task Matrix spanning encounter reasons (e.g. anxiety, pregnancy, wellness checkup) x encounter objectives (e.g. diagnosis, lifestyle advice, medication advice); (4) an Evaluation Framework with 105 dimensions on a 1-4 scale mapped to the Accreditation Council for Graduate Medical Education (ACGME) competencies; and (5) AI Judges that are calibrated, committee-based LLMs providing scores, flags, and evidence-linked rationales. We evaluate 9 flagship models -- Claude Opus 4.1, Claude Sonnet 4, MedGemma, Gemini 2.5 Pro, Llama 3.3 70b Instruct, GPT-5, GPT OSS 120b, o3, Grok-4 -- across 366 AI Patients and 7,097 conversations using a standardized "vanilla clinician" prompt. For all LLMs, we observe low performance across a variety of dimensions, in particular on differential diagnosis. Our work can help guide future use of LLMs for diagnosis and treatment recommendations.
- Abstract(参考訳): 患者・クリニック会話における大規模言語モデル(LLM)の評価のための高次元ベンチマークであるMedPIを提案する。
単ターン質問応答(QA)ベンチマークとは異なり、MedPIは、医療プロセス、治療安全性、治療結果、医師と患者のコミュニケーションを含む105次元の医療対話を、粒状で認定されたルーブリックで評価する。
MedPI は,(1)患者パケット (synthetic EHR-like ground truth), (2) LLMを通して記憶と影響を持ったAI患者,(3) 出会う理由(不安,妊娠,健康チェックアップなど)にまたがるタスクマトリックス x 出会う目的(診断,ライフスタイルのアドバイス,医療アドバイスなど),(4) 研究医療教育認定協議会(ACGME)の能力にマップされた1-4スケールの105次元評価フレームワーク,(5) 評価されたAI審査員,委員会ベースのLSMによるスコア,フラグ,エビデンス関連合理性を提供する。
我々は,Claude Opus 4.1, Claude Sonnet 4, MedGemma, Gemini 2.5 Pro, Llama 3.3 70b Instruct, GPT-5, GPT OSS 120b, o3, Grok-4の9つのフラッグシップモデルを評価する。
全てのLSMに対して、様々な次元、特に差分診断において、低性能を観察する。
本研究は, LLMの今後の治療・診断への活用の指針となる。
関連論文リスト
- 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [2.3011663397108078]
3MDBenchは、LVLM駆動の遠隔医療相談をシミュレートし評価するためのオープンソースのフレームワークである。
内部推論によるマルチモーダル対話は、非対話設定よりもF1スコアが6.5%向上する。
診断畳み込みニューラルネットワークからLVLMのコンテキストに予測を注入すると、F1は最大20%向上する。
論文 参考訳(メタデータ) (2025-03-26T07:32:05Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。