論文の概要: Beyond Idealized Patients: Evaluating LLMs under Challenging Patient Behaviors in Medical Consultations
- arxiv url: http://arxiv.org/abs/2603.29373v1
- Date: Tue, 31 Mar 2026 07:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.260753
- Title: Beyond Idealized Patients: Evaluating LLMs under Challenging Patient Behaviors in Medical Consultations
- Title(参考訳): 理想化された患者を超えて:医療相談における患者行動の整合性を考慮したLCMの評価
- Authors: Yahan Li, Xinyi Jie, Wanjia Ruan, Xubei Zhang, Huaijie Zhu, Yicheng Gao, Chaohao Du, Ruishan Liu,
- Abstract要約: 実際の医療相談で一般的に発生する患者行動について検討する。
各動作について、安全でない応答をキャプチャする具体的な障害基準を指定する。
患者発話に対する応答について,オープンおよびクローズドソースのLCMについて検討した。
- 参考スコア(独自算出の注目度): 2.337503919179969
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly used for medical consultation and health information support. In this high-stakes setting, safety depends not only on medical knowledge, but also on how models respond when patient inputs are unclear, inconsistent, or misleading. However, most existing medical LLM evaluations assume idealized and well-posed patient questions, which limits their realism. In this paper, we study challenging patient behaviors that commonly arise in real medical consultations and complicate safe clinical reasoning. We define four clinically grounded categories of such behaviors: information contradiction, factual inaccuracy, self-diagnosis, and care resistance. For each behavior, we specify concrete failure criteria that capture unsafe responses. Building on four existing medical dialogue datasets, we introduce CPB-Bench (Challenging Patient Behaviors Benchmark), a bilingual (English and Chinese) benchmark of 692 multi-turn dialogues annotated with these behaviors. We evaluate a range of open- and closed-source LLMs on their responses to challenging patient utterances. While models perform well overall, we identify consistent, behavior-specific failure patterns, with particular difficulty in handling contradictory or medically implausible patient information. We also study four intervention strategies and find that they yield inconsistent improvements and can introduce unnecessary corrections. We release the dataset and code.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療相談や健康情報支援にますます利用されている。
この高い視点では、安全は医療知識だけでなく、患者の入力が不明確、矛盾し、誤解を招く場合のモデルがどのように反応するかにも依存する。
しかし、既存のLLM評価のほとんどは、理想化され、十分に提示された患者の質問を前提としており、現実主義を制限している。
本稿では、実際の医療相談において一般的に発生する患者行動に挑戦し、安全な臨床推論を複雑にすることについて検討する。
本研究は, 情報矛盾, 事実不正確, 自己診断, 介護抵抗の4つの臨床応用カテゴリーを定義した。
各動作について、安全でない応答をキャプチャする具体的な障害基準を指定する。
CPB-Bench (Challenging patient Behaviors Benchmark) は692件のマルチターンダイアログのバイリンガル(英語と中国語)ベンチマークである。
患者発話に対する応答について,オープンおよびクローズドソースのLCMについて検討した。
モデルは全体としては良好に機能するが, 整合性, 行動特異的な障害パターンを同定する。
また、4つの介入戦略について検討し、不整合の改善をもたらし、不要な修正を導入することができることを見出した。
データセットとコードをリリースします。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - The Dialogue That Heals: A Comprehensive Evaluation of Doctor Agents' Inquiry Capability [15.649293541650811]
我々は,医療マルチターン質問の自動的・包括的評価のための,これまでで最大のベンチマークであるMAQuE(Medical Agent Questioning Evaluation)を提案する。
3000の患者エージェントがリアルにシミュレートされ、多様な言語パターン、認知的制限、感情的反応、受動的開示の傾向を示す。
また,タスク成功,質問能力,対話能力,質問効率,患者体験を網羅する多面的評価フレームワークも導入した。
論文 参考訳(メタデータ) (2025-09-29T15:52:36Z) - PatientSim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions [21.02633535404176]
本稿では,臨床シナリオのための現実的で多様な患者ペルソナを生成する患者シミュレータであるPatentSimを紹介する。
patientSimは、1)MIMIC-EDおよびMIMIC-IVデータセットの実際のデータから得られた症状や医療史を含む臨床プロファイル、2)性格、言語能力、医療履歴のリコールレベル、認知的混乱レベルという4つの軸で定義されたペルソナを使用する。
最も優れたオープンソースモデルであるLlama 3.3 70Bは、我々のフレームワークの堅牢性を確認するために、4人の臨床医によって検証されている。
論文 参考訳(メタデータ) (2025-05-23T12:34:48Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Language models are susceptible to incorrect patient self-diagnosis in
medical applications [0.0]
患者からの自己診断報告を含むように修正された米国の医療委員会試験からの複数項目の質問を含む様々なLSMを提示する。
以上の結果から, 誤った偏見検証情報を提案すると, LLMの診断精度は劇的に低下することが明らかとなった。
論文 参考訳(メタデータ) (2023-09-17T19:56:39Z) - RECAP-KG: Mining Knowledge Graphs from Raw GP Notes for Remote COVID-19
Assessment in Primary Care [45.43645878061283]
本稿では,患者相談の前後に書かれた生のGP医療ノートから知識グラフ構築を行うフレームワークを提案する。
私たちの知識グラフには、既存の患者の症状、その持続時間、重症度に関する情報が含まれています。
本フレームワークを英国における新型コロナウイルス患者の相談ノートに適用する。
論文 参考訳(メタデータ) (2023-06-17T23:35:51Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。