論文の概要: ThReadMed-QA: A Multi-Turn Medical Dialogue Benchmark from Real Patient Questions
- arxiv url: http://arxiv.org/abs/2603.11281v1
- Date: Wed, 11 Mar 2026 20:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.626267
- Title: ThReadMed-QA: A Multi-Turn Medical Dialogue Benchmark from Real Patient Questions
- Title(参考訳): ThReadMed-QA: 実際の患者の質問からのマルチターン医療対話ベンチマーク
- Authors: Monica Munnangi, Saiph Savage,
- Abstract要約: ThReadMed-QAは、r/AskDocsから抽出された2,437人の患者を検索する会話スレッドのベンチマークである。
我々は,238の会話の階層化テスト分割に基づいて,最先端のLLMを5つ評価した。
最も強いモデルであるGPT-5でさえ41.2%の完全正解しか得られない。
- 参考スコア(独自算出の注目度): 5.63130104359934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical question-answering benchmarks predominantly evaluate single-turn exchanges, failing to capture the iterative, clarification-seeking nature of real patient consultations. We introduce ThReadMed-QA, a benchmark of 2,437 fully-answered patient-physician conversation threads extracted from r/AskDocs, comprising 8,204 question-answer pairs across up to 9 turns. Unlike prior work relying on simulated dialogues, adversarial prompts, or exam-style questions, ThReadMed-QA captures authentic patient follow-up questions and verified physician responses, reflecting how patients naturally seek medical information online. We evaluate five state-of-the-art LLMs -- GPT-5, GPT-4o, Claude Haiku, Gemini 2.5 Flash, and Llama 3.3 70B -- on a stratified test split of 238 conversations (948 QA pairs) using a calibrated LLM-as-a-judge rubric grounded in physician ground truth. Even the strongest model, GPT-5, achieves only 41.2% fully-correct responses. All five models degrade significantly from turn 0 to turn 2 (p < 0.001), with wrong-answer rates roughly tripling by the third turn. We identify a fundamental tension between single-turn capability and multi-turn reliability: models with the strongest initial performance (GPT-5: 75.2; Claude Haiku: 72.3 out of 100) exhibit the steepest declines by turn 2 (dropping 16.2 and 25.0 points respectively), while weaker models plateau or marginally improve. We introduce two metrics to quantify multi-turn failure modes: Conversational Consistency Score (CCS) and Error Propagation Rate (EPR). CCS reveals that nearly one in three Claude Haiku conversations swings between a fully correct and a completely wrong response within the same thread. EPR shows that a single wrong turn raises the probability of a subsequent wrong turn by 1.9-6.1x across all models.
- Abstract(参考訳): 医学的質問答えベンチマークは、主に単ターン交換を評価し、実際の患者相談の反復的で明確化を求める性質を捉えていない。
我々は,r/AskDocsから抽出した2,437個の完全回答された患者-物理学的会話スレッドのベンチマークであるThReadMed-QAを紹介した。
ThReadMed-QAは、シミュレーションされた対話、敵のプロンプト、あるいは試験スタイルの質問に頼っている以前の作業とは異なり、患者がオンラインの医療情報をどのように自然に求めているかを反映して、本物の患者のフォローアップ質問と検査された医師の反応をキャプチャする。
GPT-5, GPT-4o, Claude Haiku, Gemini 2.5 Flash, Llama 3.3 70B の5つの最先端 LLM を, 医師の真実を根拠とした校正 LLM-as-a-judge rubric を用いた238 対 (948 QA pairs) の階層化試験により評価した。
最も強いモデルであるGPT-5でさえ41.2%の完全正解しか得られない。
5つのモデルは全て0ターンから2ターン(p < 0.001)に大きく劣化し、3ターン目でほぼ3倍になる。
最強イニシャルパフォーマンス(GPT-5: 75.2; クロードハイク: 72.3; 100点中)を持つモデルは、ターン2(それぞれ16.2点、25.0点)で最も急激な低下を示し、モデルプラトーや辺縁的な改善を示す。
マルチターン障害モードの定量化には,会話整合スコア(CCS)とエラー伝播レート(EPR)の2つの指標を導入する。
CCSによると、Claude Haikuの会話の3分の1近くが、完全に正しいものと、同じスレッド内で完全に間違ったレスポンスの間に揺れている。
EPRは、1つの間違った曲がり角が全てのモデルで1.9-6.1倍の間違った曲がり角になる可能性を示している。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - Automatic Replication of LLM Mistakes in Medical Conversations [0.0]
MedMistakeは、LCMが患者と医師の会話で犯した誤りを抽出し、それらを単発QAペアのベンチマークに変換する自動パイプラインである。
私たちは、3,390枚のシングルショットQAペアからなるデータセットであるMedMistake-Allをリリースした。
GPTモデルであるClaudeとGrokは、MedMistake-Benchで最高のパフォーマンスを得た。
論文 参考訳(メタデータ) (2025-12-24T06:17:21Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Evaluating Generative AI as an Educational Tool for Radiology Resident Report Drafting [1.5457333450799497]
本研究は,HIPAA 準拠の GPT-4o システムを用いて,実地臨床環境において住民が作成した乳房画像報告を自動的にフィードバックするシステムについて検討した。
1) キー発見の欠落または追加,(2) 技術的記述子の誤用または欠落,(3) 結果と一致しない最終評価の3つの一般的な誤り型が同定された。
GPT-4oは、90.5%、78.3%、90.4%のエラータイプで、コンセンサスに強く同意している。
論文 参考訳(メタデータ) (2025-09-22T20:51:09Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Cancer-Myth: Evaluating Large Language Models on Patient Questions with False Presuppositions [24.01781019459841]
がん患者は、医療情報のための大きな言語モデル(LLM)に変わりつつある。
LLMは、がんに関連する問題において、偽の前提を認識または対処することができない。
我々は、単独でプロンプトを行うことは、偽の前提に対する信頼できる治療法ではないことを示す。
論文 参考訳(メタデータ) (2025-04-15T16:37:32Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - Addressing cognitive bias in medical language models [25.58126133789956]
BiasMedQAは、医療タスクに適用された大規模言語モデル(LLM)の認知バイアスを評価するためのベンチマークである。
USMLE(US Medical Licensing Exam)ステップ1、2、3の1273の質問に対して、6つのモデルを試した。
GPT-4は認知バイアスの影響を受けないLlama 2 70B-chatとPMC Llama 13Bとは対照的に, バイアスに対する耐性が顕著であった。
論文 参考訳(メタデータ) (2024-02-12T23:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。