論文の概要: The Reliability of LLMs for Medical Diagnosis: An Examination of Consistency, Manipulation, and Contextual Awareness
- arxiv url: http://arxiv.org/abs/2503.10647v1
- Date: Sun, 02 Mar 2025 11:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-23 07:08:10.648590
- Title: The Reliability of LLMs for Medical Diagnosis: An Examination of Consistency, Manipulation, and Contextual Awareness
- Title(参考訳): 医学診断におけるLCMの信頼性:一貫性, 操作性, 文脈意識の検討
- Authors: Krishna Subedi,
- Abstract要約: 大規模言語モデル(LLM)は、先進的な診断で医療の民主化を約束する。
本研究は, 整合性, 操作のレジリエンス, コンテキスト統合に焦点をあてた診断信頼性を評価する。
LLMの操作や文脈認識の制限に対する脆弱性は、臨床使用において課題となる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Universal healthcare access is critically needed, especially in resource-limited settings. Large Language Models (LLMs) offer promise for democratizing healthcare with advanced diagnostics, but their reliability requires thorough evaluation, especially in trust-dependent environments. This study assesses LLMs' diagnostic reliability focusing on consistency, manipulation resilience, and contextual integration, crucial for safe and ethical use in universal healthcare. We evaluated leading LLMs using 52 patient cases, expanded into variants with demographic changes, symptom rewordings, and exam modifications, while keeping core diagnoses constant. Manipulation susceptibility was tested by inserting misleading narratives and irrelevant details. Contextual awareness was rvaluated by comparing diagnoses with and without patient history. We analyzed diagnostic change rates and response patterns across manipulations. LLMs showed perfect diagnostic consistency for identical data but significant manipulation susceptibility. Gemini had a 40% diagnosis change rate and ChatGPT 30% with irrelevant details. ChatGPT had a higher context influence rate (77.8% vs. Gemini's 55.6%), but both showed limited nuanced contextual integration, exhibiting anchoring bias by prioritizing salient data over context. LLMs' vulnerability to manipulation and limited contextual awareness pose challenges in clinical use. Unlike clinicians, they may overstate diagnostic certainty without validation. Safeguards and domain-specific designs are crucial for reliable healthcare applications. Broad clinical use without oversight is premature and risky. LLMs can enhance diagnostics with responsible use, but future research is needed to improve manipulation resistance and contextual understanding for safe healthcare democratization.
- Abstract(参考訳): ユニバーサルヘルスケアアクセスは、特にリソース制限された設定において、極めて必要である。
大規模言語モデル(LLM)は、先進的な診断で医療を民主化することを約束するが、信頼性には、特に信頼に依存した環境において、徹底的な評価が必要である。
本研究は, 普遍医療における安全・倫理的利用に欠かせない, 整合性, 整合性, 整合性, 文脈統合に着目したLCMの診断信頼性を評価する。
症例52例を用いて先行性LCMの評価を行い, 診断基準を一定に保ちながら, 人口動態の変化, 症状の再検討, 検査修正を行った。
誤解を招く物語と無関係な詳細を挿入することにより、操作感受性を検証した。
文脈認識は, 患者歴と無患者の診断を比較して評価した。
手術中における診断的変化率と反応パターンを解析した。
LLMは同一データに対して完全な診断整合性を示したが, 高い操作感受性を示した。
Geminiの診断率は40%、ChatGPTは30%で、詳細は無関係だった。
ChatGPTは、文脈の影響率が高い(77.8%対ジェミニの55.6%)が、どちらも狭義の文脈統合を示した。
LLMの操作や文脈認識の制限に対する脆弱性は、臨床使用において課題となる。
臨床医とは異なり、バリデーションなしで診断の確実性を誇張することができる。
安全とドメイン固有の設計は、信頼できる医療アプリケーションには不可欠です。
監視を伴わない幅広い臨床使用は早期かつ危険である。
LLMは、責任ある用途で診断を強化することができるが、医療の安全な民主化のための操作抵抗と文脈的理解を改善するために将来の研究が必要である。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。
本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文 参考訳(メタデータ) (2024-10-09T06:00:05Z) - CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z) - Digital Diagnostics: The Potential Of Large Language Models In Recognizing Symptoms Of Common Illnesses [0.2995925627097048]
本研究は,患者症状を解釈し,一般的な疾患に適合する診断を判定することにより,各モデルの診断能力を評価する。
GPT-4は、医療データに基づくトレーニングの深部および完全な履歴から高い診断精度を示す。
Geminiは、病気のトリアージにおいて重要なツールとして高い精度で実行し、信頼性のあるモデルになる可能性を示している。
論文 参考訳(メタデータ) (2024-05-09T15:12:24Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z) - Methods to Estimate Large Language Model Confidence [2.4797200957733576]
本研究は, 難治性ヴィグネットの診断法を提案する際に, 大規模言語モデルの信頼性を評価する方法を評価するものである。
SC一致頻度は、特に診断において、モデル信頼性の最も有用な指標である。
論文 参考訳(メタデータ) (2023-11-28T05:44:06Z) - Language models are susceptible to incorrect patient self-diagnosis in
medical applications [0.0]
患者からの自己診断報告を含むように修正された米国の医療委員会試験からの複数項目の質問を含む様々なLSMを提示する。
以上の結果から, 誤った偏見検証情報を提案すると, LLMの診断精度は劇的に低下することが明らかとなった。
論文 参考訳(メタデータ) (2023-09-17T19:56:39Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。