Fugu-MT 論文翻訳(概要): MedPI: Evaluating AI Systems in Medical Patient-facing Interactions

論文の概要: MedPI: Evaluating AI Systems in Medical Patient-facing Interactions

arxiv url: http://arxiv.org/abs/2601.04195v1
Date: Tue, 02 Dec 2025 19:10:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-25 16:54:51.505959
Title: MedPI: Evaluating AI Systems in Medical Patient-facing Interactions
Title（参考訳）: MedPI: 医療従事者のインタラクションにおけるAIシステムの評価
Authors: Diego Fajardo V., Oleksii Proniakin, Victoria-Elisabeth Gruber, Razvan Marinescu,
Abstract要約: 患者・クリニック会話における大規模言語モデル(LLM)の評価のための高次元ベンチマークであるMedPIを提案する。 MedPIは、医療プロセス、治療安全性、治療結果、医師と患者とのコミュニケーションを含む105次元の医療対話を評価する。我々は、Claude Opus 4.1, Claude Sonnet 4, MedGemma, Gemini 2.5 Pro, Llama 3.3 70b Instruct, GPT-5, GPT OSS 120b, o3, Grok-4という9つのフラッグシップモデルを、366人のAI患者と7,097人の会話で評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present MedPI, a high-dimensional benchmark for evaluating large language models (LLMs) in patient-clinician conversations. Unlike single-turn question-answer (QA) benchmarks, MedPI evaluates the medical dialogue across 105 dimensions comprising the medical process, treatment safety, treatment outcomes and doctor-patient communication across a granular, accreditation-aligned rubric. MedPI comprises five layers: (1) Patient Packets (synthetic EHR-like ground truth); (2) an AI Patient instantiated through an LLM with memory and affect; (3) a Task Matrix spanning encounter reasons (e.g. anxiety, pregnancy, wellness checkup) x encounter objectives (e.g. diagnosis, lifestyle advice, medication advice); (4) an Evaluation Framework with 105 dimensions on a 1-4 scale mapped to the Accreditation Council for Graduate Medical Education (ACGME) competencies; and (5) AI Judges that are calibrated, committee-based LLMs providing scores, flags, and evidence-linked rationales. We evaluate 9 flagship models -- Claude Opus 4.1, Claude Sonnet 4, MedGemma, Gemini 2.5 Pro, Llama 3.3 70b Instruct, GPT-5, GPT OSS 120b, o3, Grok-4 -- across 366 AI Patients and 7,097 conversations using a standardized "vanilla clinician" prompt. For all LLMs, we observe low performance across a variety of dimensions, in particular on differential diagnosis. Our work can help guide future use of LLMs for diagnosis and treatment recommendations.
Abstract（参考訳）: 患者・クリニック会話における大規模言語モデル(LLM)の評価のための高次元ベンチマークであるMedPIを提案する。単ターン質問応答(QA)ベンチマークとは異なり、MedPIは、医療プロセス、治療安全性、治療結果、医師と患者のコミュニケーションを含む105次元の医療対話を、粒状で認定されたルーブリックで評価する。 MedPI は,(1)患者パケット (synthetic EHR-like ground truth), (2) LLMを通して記憶と影響を持ったAI患者,(3) 出会う理由(不安,妊娠,健康チェックアップなど)にまたがるタスクマトリックス x 出会う目的(診断,ライフスタイルのアドバイス,医療アドバイスなど),(4) 研究医療教育認定協議会(ACGME)の能力にマップされた1-4スケールの105次元評価フレームワーク,(5) 評価されたAI審査員,委員会ベースのLSMによるスコア,フラグ,エビデンス関連合理性を提供する。我々は,Claude Opus 4.1, Claude Sonnet 4, MedGemma, Gemini 2.5 Pro, Llama 3.3 70b Instruct, GPT-5, GPT OSS 120b, o3, Grok-4の9つのフラッグシップモデルを評価する。全てのLSMに対して、様々な次元、特に差分診断において、低性能を観察する。本研究は, LLMの今後の治療・診断への活用の指針となる。

関連論文リスト

MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文参考訳（メタデータ） (2026-01-06T13:56:33Z)
DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文参考訳（メタデータ） (2025-10-24T08:01:21Z)
Psychiatry-Bench: A Multi-Task Benchmark for LLMs in Psychiatry [1.2879523047871226]
PsychiatryBenchは、専門家が検証した精神医学の教科書とケースブックにのみ基づく厳格にキュレートされたベンチマークである。精神科ベンチは、診断的推論や治療計画から、縦断的フォローアップ、管理計画、臨床アプローチ、シーケンシャルケース分析、および5300件以上の専門家注釈項目からなる多重選択/拡張マッチングフォーマットまで、11種類の質問応答タスクから構成されている。
論文参考訳（メタデータ） (2025-09-07T20:57:24Z)
DocCHA: Towards LLM-Augmented Interactive Online diagnosis System [17.975659876934895]
DocCHAは、診断プロセスを3段階に分解することで臨床推論をエミュレートする、信頼性に配慮したモジュラーなフレームワークである。実世界の中国のコンサルティングデータセットを2つ評価した。
論文参考訳（メタデータ） (2025-07-10T15:52:04Z)
3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [2.3011663397108078]
3MDBenchは、LVLM駆動の遠隔医療相談をシミュレートし評価するためのオープンソースのフレームワークである。内部推論によるマルチモーダル対話は、非対話設定よりもF1スコアが6.5%向上する。診断畳み込みニューラルネットワークからLVLMのコンテキストに予測を注入すると、F1は最大20%向上する。
論文参考訳（メタデータ） (2025-03-26T07:32:05Z)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-22T17:44:40Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。 3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。 MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文参考訳（メタデータ） (2020-10-15T03:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。