論文の概要: MedEinst: Benchmarking the Einstellung Effect in Medical LLMs through Counterfactual Differential Diagnosis
- arxiv url: http://arxiv.org/abs/2601.06636v1
- Date: Sat, 10 Jan 2026 17:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.911782
- Title: MedEinst: Benchmarking the Einstellung Effect in Medical LLMs through Counterfactual Differential Diagnosis
- Title(参考訳): MedEinst: 鑑別診断による医療用LLMの星空効果のベンチマーク
- Authors: Wenting Chen, Zhongrui Zhu, Guolin Huang, Wenxuan Wang,
- Abstract要約: MedEinstは,49の疾患に5,383対の臨床症例を比較検討した。
バイアストラップ速度による感受性の測定-正確な診断制御にもかかわらず、誤診断トラップの確率について検討する。
- 参考スコア(独自算出の注目度): 13.241795322837861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite achieving high accuracy on medical benchmarks, LLMs exhibit the Einstellung Effect in clinical diagnosis--relying on statistical shortcuts rather than patient-specific evidence, causing misdiagnosis in atypical cases. Existing benchmarks fail to detect this critical failure mode. We introduce MedEinst, a counterfactual benchmark with 5,383 paired clinical cases across 49 diseases. Each pair contains a control case and a "trap" case with altered discriminative evidence that flips the diagnosis. We measure susceptibility via Bias Trap Rate--probability of misdiagnosing traps despite correctly diagnosing controls. Extensive Evaluation of 17 LLMs shows frontier models achieve high baseline accuracy but severe bias trap rates. Thus, we propose ECR-Agent, aligning LLM reasoning with Evidence-Based Medicine standard via two components: (1) Dynamic Causal Inference (DCI) performs structured reasoning through dual-pathway perception, dynamic causal graph reasoning across three levels (association, intervention, counterfactual), and evidence audit for final diagnosis; (2) Critic-Driven Graph and Memory Evolution (CGME) iteratively refines the system by storing validated reasoning paths in an exemplar base and consolidating disease-specific knowledge into evolving illness graphs. Source code is to be released.
- Abstract(参考訳): 医学ベンチマークの精度が高いにもかかわらず、LSMは臨床診断においてEinstellung効果を示す。
既存のベンチマークは、このクリティカルな障害モードを検出することができません。
MedEinstは,49の疾患に5,383対の臨床症例を比較検討した。
それぞれのペアはコントロールケースと、診断を反転させる差別的証拠を改変した"トラップ"ケースを含んでいる。
バイアストラップ速度による感受性の測定-正確な診断制御にもかかわらず、誤診断トラップの確率について検討する。
17LLMの大規模評価により,フロンティアモデルでは高いベースライン精度が得られたが,重度のバイアストラップレートが得られた。
そこで本稿では,1) 動的因果推論(DCI, Dynamic Causal Inference, Dynamic Causal Graph reasoning, dynamic causal graph reasoning, dynamic causal graph reasoning across three levels (asociation, intervention, counterfactual), and evidence auditing for final diagnosis, (2) Critic-Driven Graph and Memory Evolution (CGME) は, 既往の基盤にある検証された推論経路を保存し, 疾患固有の知識を進化するグラフに集約することにより, システムを反復的に洗練する。
ソースコードはリリースされます。
関連論文リスト
- MedKGI: Iterative Differential Diagnosis with Medical Knowledge Graphs and Information-Guided Inquiring [39.776843923694244]
臨床実践を基盤とした診断フレームワークであるMedKGIを提案する。
MedKGI は診断精度と検査効率の両方において強力な LLM ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-12-30T12:31:53Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - Towards Reducing Diagnostic Errors with Interpretable Risk Prediction [18.474645862061426]
特定診断のリスクの増大または低下を示す患者EHRデータ中の証拠片をLCMを用いて同定する方法を提案する。
私たちの究極の目標は、証拠へのアクセスを増やし、診断エラーを減らすことです。
論文 参考訳(メタデータ) (2024-02-15T17:05:48Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z) - Towards Causality-Aware Inferring: A Sequential Discriminative Approach
for Medical Diagnosis [142.90770786804507]
医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。
この研究は、因果図を利用して、MDAにおけるこれらの重要な問題に対処しようとする。
本稿では,他の記録から知識を引き出すことにより,非記録的調査に効果的に答える確率に基づく患者シミュレータを提案する。
論文 参考訳(メタデータ) (2020-03-14T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。