論文の概要: Right Prediction, Wrong Reasoning: Uncovering LLM Misalignment in RA Disease Diagnosis
- arxiv url: http://arxiv.org/abs/2504.06581v1
- Date: Wed, 09 Apr 2025 05:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:39.444744
- Title: Right Prediction, Wrong Reasoning: Uncovering LLM Misalignment in RA Disease Diagnosis
- Title(参考訳): 正しい予測, 誤り推論: RA 病診断における LLM の相違
- Authors: Umakanta Maharana, Sarthak Verma, Avarna Agarwal, Prakashini Mruthyunjaya, Dwarikanath Mahapatra, Sakir Ahmed, Murari Mandal,
- Abstract要約: 大規模言語モデル(LLM)は、有望な事前スクリーニングツールを提供し、早期疾患の検出を改善し、未熟なコミュニティに対する医療アクセスを増強する。
様々な疾患の予測に顕著な精度で、LSMは臨床前スクリーニングや様々な医療状況の意思決定に革命をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 16.057157876625794
- License:
- Abstract: Large language models (LLMs) offer a promising pre-screening tool, improving early disease detection and providing enhanced healthcare access for underprivileged communities. The early diagnosis of various diseases continues to be a significant challenge in healthcare, primarily due to the nonspecific nature of early symptoms, the shortage of expert medical practitioners, and the need for prolonged clinical evaluations, all of which can delay treatment and adversely affect patient outcomes. With impressive accuracy in prediction across a range of diseases, LLMs have the potential to revolutionize clinical pre-screening and decision-making for various medical conditions. In this work, we study the diagnostic capability of LLMs for Rheumatoid Arthritis (RA) with real world patients data. Patient data was collected alongside diagnoses from medical experts, and the performance of LLMs was evaluated in comparison to expert diagnoses for RA disease prediction. We notice an interesting pattern in disease diagnosis and find an unexpected \textit{misalignment between prediction and explanation}. We conduct a series of multi-round analyses using different LLM agents. The best-performing model accurately predicts rheumatoid arthritis (RA) diseases approximately 95\% of the time. However, when medical experts evaluated the reasoning generated by the model, they found that nearly 68\% of the reasoning was incorrect. This study highlights a clear misalignment between LLMs high prediction accuracy and its flawed reasoning, raising important questions about relying on LLM explanations in clinical settings. \textbf{LLMs provide incorrect reasoning to arrive at the correct answer for RA disease diagnosis.}
- Abstract(参考訳): 大規模言語モデル(LLM)は、有望な事前スクリーニングツールを提供し、早期疾患の検出を改善し、未熟なコミュニティに対する医療アクセスを増強する。
様々な疾患の早期診断は、初期症状の非特異性、専門医の不足、長期臨床評価の必要性など、医療において重要な課題であり、これらは治療の遅れや患者の予後に悪影響を及ぼす可能性がある。
様々な疾患の予測に顕著な精度で、LSMは臨床前スクリーニングや様々な医療状況の意思決定に革命をもたらす可能性がある。
本研究では,慢性関節リウマチ(RA)に対するLLMの診断能力について,実世界の患者データを用いて検討した。
患者データは, 専門医の診断とともに収集され, LLMの成績は, RA疾患予測の専門診断と比較して評価された。
疾患の診断には興味深いパターンがあることに気付き,予測と説明の相違点を見いだした。
我々は、異なるLLMエージェントを用いて、一連の多ラウンド分析を行う。
その結果,関節リウマチ (RA) の発症率は約95%と推定された。
しかし, モデルによる推論を評価すると, 推理の68%近くが誤りであることが判明した。
本研究は,LSMの高精度な予測精度と欠陥推論との明確な相違を強調し,臨床環境におけるLSMの説明への依存に関する重要な疑問を提起する。
\textbf{LLMs は RA 病診断の正しい答えにたどり着くための誤った推論を提供する。
※
関連論文リスト
- Memorize and Rank: Elevating Large Language Models for Clinical Diagnosis Prediction [10.403187385041702]
本稿では,自然言語知識と医療実践を橋渡しする臨床診断予測モデルMERAを紹介する。
疾患候補ランキングリストに階層的コントラスト学習を適用し,大規模な意思決定空間の問題を軽減する。
論文 参考訳(メタデータ) (2025-01-28T22:38:45Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Towards Reducing Diagnostic Errors with Interpretable Risk Prediction [18.474645862061426]
特定診断のリスクの増大または低下を示す患者EHRデータ中の証拠片をLCMを用いて同定する方法を提案する。
私たちの究極の目標は、証拠へのアクセスを増やし、診断エラーを減らすことです。
論文 参考訳(メタデータ) (2024-02-15T17:05:48Z) - A Foundational Framework and Methodology for Personalized Early and
Timely Diagnosis [84.6348989654916]
本稿では,早期診断とタイムリー診断のための基礎的枠組みを提案する。
診断過程を概説する決定論的アプローチに基づいている。
機械学習と統計手法を統合し、最適なパーソナライズされた診断経路を推定する。
論文 参考訳(メタデータ) (2023-11-26T14:42:31Z) - Deciphering Diagnoses: How Large Language Models Explanations Influence
Clinical Decision Making [0.0]
大きな言語モデル(LLM)は、医学的な決定のための平文の説明を生成するための有望なツールとして現れています。
本研究は, 患者の苦情に基づく診断のための説明書作成におけるLCMの有効性と信頼性について検討した。
論文 参考訳(メタデータ) (2023-10-03T00:08:23Z) - CPLLM: Clinical Prediction with Large Language Models [0.07083082555458872]
本稿では,臨床疾患に対するLLM(Pre-trained Large Language Model)の微調整と寛容予測を行う手法を提案する。
診断予測には,患者の来訪時に対象疾患と診断されるか,その後に診断されるかを,過去の診断記録を利用して予測する。
提案手法であるCPLLMは,PR-AUCおよびROC-AUCの指標で試験された全てのモデルを上回ることを示した。
論文 参考訳(メタデータ) (2023-09-20T13:24:12Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。