論文の概要: Cognitive bias in LLM reasoning compromises interpretation of clinical oncology notes
- arxiv url: http://arxiv.org/abs/2511.20680v1
- Date: Sun, 16 Nov 2025 21:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.331538
- Title: Cognitive bias in LLM reasoning compromises interpretation of clinical oncology notes
- Title(参考訳): LLM推論における認知バイアスは臨床腫瘍学ノートの解釈を損なう
- Authors: Matthew W. Kenaston, Umair Ayub, Mihir Parmar, Muhammad Umair Anjum, Syed Arsalan Ahmed Naqvi, Priya Kumar, Samarth Rawal, Aadel A. Chaudhuri, Yousef Zakharia, Elizabeth I. Heath, Tanios S. Bekaii-Saab, Cui Tao, Eliezer M. Van Allen, Ben Zhou, YooJung Choi, Chitta Baral, Irbaz Bin Riaz,
- Abstract要約: 我々は,GPT-4連鎖反応から実際のオンコロジーノートへの誤りを推論する階層的な分類法を開発した。
前立腺癌検診の822例に対する分類学的検討を行った。
推論失敗はガイドラインの不一致と潜在的に有害なレコメンデーションと関連づけられた。
- 参考スコア(独自算出の注目度): 28.87443673774825
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite high performance on clinical benchmarks, large language models may reach correct conclusions through faulty reasoning, a failure mode with safety implications for oncology decision support that is not captured by accuracy-based evaluation. In this two-cohort retrospective study, we developed a hierarchical taxonomy of reasoning errors from GPT-4 chain-of-thought responses to real oncology notes and tested its clinical relevance. Using breast and pancreatic cancer notes from the CORAL dataset, we annotated 600 reasoning traces to define a three-tier taxonomy mapping computational failures to cognitive bias frameworks. We validated the taxonomy on 822 responses from prostate cancer consult notes spanning localized through metastatic disease, simulating extraction, analysis, and clinical recommendation tasks. Reasoning errors occurred in 23 percent of interpretations and dominated overall errors, with confirmation bias and anchoring bias most common. Reasoning failures were associated with guideline-discordant and potentially harmful recommendations, particularly in advanced disease management. Automated evaluators using state-of-the-art language models detected error presence but could not reliably classify subtypes. These findings show that large language models may provide fluent but clinically unsafe recommendations when reasoning is flawed. The taxonomy provides a generalizable framework for evaluating and improving reasoning fidelity before clinical deployment.
- Abstract(参考訳): 臨床ベンチマークの性能は高いが、大規模な言語モデルは、正確性に基づく評価では得られないオンコロジー決定支援の安全性に影響を及ぼす障害モードである欠陥推論によって正しい結論に達する可能性がある。
本研究は,GPT-4連鎖反応から実際の腫瘍学ノートへの誤りを推論する階層的分類法を開発し,その臨床的意義を検証した。
コラルデータセットから得られた乳がんと膵がんのノートを用いて、600の推論トレースを注釈付けし、計算障害を認知バイアスの枠組みにマッピングする3階層の分類基準を定義した。
前立腺癌相談紙822件の分類を,転移性疾患の局所化,抽出,解析,臨床レコメンデーションのシミュレーションにより検証した。
推論エラーは解釈の23%で発生し、全体的なエラーを支配した。
推論障害は、特に先進的な疾患管理において、ガイドラインの不一致と潜在的に有害なレコメンデーションに関係していた。
最先端言語モデルを用いた自動評価器はエラーの存在を検出したが、確実にサブタイプを分類できなかった。
以上の結果から,大規模言語モデルでは推論に欠陥がある場合に,流動的ではあるが臨床的に安全でないレコメンデーションが提供される可能性が示唆された。
分類学は、臨床展開前の推論忠実度を評価し改善するための一般化可能な枠組みを提供する。
関連論文リスト
- A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist [1.1731001328350983]
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。
メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE)
以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
論文 参考訳(メタデータ) (2025-10-22T00:15:02Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Secure Diagnostics: Adversarial Robustness Meets Clinical Interpretability [9.522045116604358]
医用画像分類のためのディープニューラルネットワークは、臨床実践において一貫して一般化することができないことが多い。
本稿では, フラクチャー検出のために微調整された深部ニューラルネットワークの解釈可能性について, 対向攻撃に対するモデル性能の評価により検討する。
論文 参考訳(メタデータ) (2025-04-07T20:26:02Z) - Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。
3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文 参考訳(メタデータ) (2025-03-11T17:59:00Z) - Pitfalls of topology-aware image segmentation [81.19923502845441]
我々は、不適切な接続選択、見過ごされたトポロジカルアーティファクト、評価指標の不適切な使用を含むモデル評価における致命的な落とし穴を同定する。
本稿では,トポロジを意識した医用画像分割手法の公正かつ堅牢な評価基準を確立するための,行動可能なレコメンデーションセットを提案する。
論文 参考訳(メタデータ) (2024-12-19T08:11:42Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。