論文の概要: The Reliability of LLMs for Medical Diagnosis: An Examination of Consistency, Manipulation, and Contextual Awareness
- arxiv url: http://arxiv.org/abs/2503.10647v1
- Date: Sun, 02 Mar 2025 11:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-23 10:56:04.397196
- Title: The Reliability of LLMs for Medical Diagnosis: An Examination of Consistency, Manipulation, and Contextual Awareness
- Title(参考訳): 医学診断におけるLCMの信頼性:一貫性, 操作性, 文脈意識の検討
- Authors: Krishna Subedi,
- Abstract要約: 大規模言語モデル(LLM)は、先進的な診断で医療の民主化を約束する。
本研究は, 整合性, 操作のレジリエンス, コンテキスト統合に焦点をあてた診断信頼性を評価する。
LLMの操作や文脈認識の制限に対する脆弱性は、臨床使用において課題となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Universal healthcare access is critically needed, especially in resource-limited settings. Large Language Models (LLMs) offer promise for democratizing healthcare with advanced diagnostics, but their reliability requires thorough evaluation, especially in trust-dependent environments. This study assesses LLMs' diagnostic reliability focusing on consistency, manipulation resilience, and contextual integration, crucial for safe and ethical use in universal healthcare. We evaluated leading LLMs using 52 patient cases, expanded into variants with demographic changes, symptom rewordings, and exam modifications, while keeping core diagnoses constant. Manipulation susceptibility was tested by inserting misleading narratives and irrelevant details. Contextual awareness was rvaluated by comparing diagnoses with and without patient history. We analyzed diagnostic change rates and response patterns across manipulations. LLMs showed perfect diagnostic consistency for identical data but significant manipulation susceptibility. Gemini had a 40% diagnosis change rate and ChatGPT 30% with irrelevant details. ChatGPT had a higher context influence rate (77.8% vs. Gemini's 55.6%), but both showed limited nuanced contextual integration, exhibiting anchoring bias by prioritizing salient data over context. LLMs' vulnerability to manipulation and limited contextual awareness pose challenges in clinical use. Unlike clinicians, they may overstate diagnostic certainty without validation. Safeguards and domain-specific designs are crucial for reliable healthcare applications. Broad clinical use without oversight is premature and risky. LLMs can enhance diagnostics with responsible use, but future research is needed to improve manipulation resistance and contextual understanding for safe healthcare democratization.
- Abstract(参考訳): ユニバーサルヘルスケアアクセスは、特にリソース制限された設定において、極めて必要である。
大規模言語モデル(LLM)は、先進的な診断で医療を民主化することを約束するが、信頼性には、特に信頼に依存した環境において、徹底的な評価が必要である。
本研究は, 普遍医療における安全・倫理的利用に欠かせない, 整合性, 整合性, 整合性, 文脈統合に着目したLCMの診断信頼性を評価する。
症例52例を用いて先行性LCMの評価を行い, 診断基準を一定に保ちながら, 人口動態の変化, 症状の再検討, 検査修正を行った。
誤解を招く物語と無関係な詳細を挿入することにより、操作感受性を検証した。
文脈認識は, 患者歴と無患者の診断を比較して評価した。
手術中における診断的変化率と反応パターンを解析した。
LLMは同一データに対して完全な診断整合性を示したが, 高い操作感受性を示した。
Geminiの診断率は40%、ChatGPTは30%で、詳細は無関係だった。
ChatGPTは、文脈の影響率が高い(77.8%対ジェミニの55.6%)が、どちらも狭義の文脈統合を示した。
LLMの操作や文脈認識の制限に対する脆弱性は、臨床使用において課題となる。
臨床医とは異なり、バリデーションなしで診断の確実性を誇張することができる。
安全とドメイン固有の設計は、信頼できる医療アプリケーションには不可欠です。
監視を伴わない幅広い臨床使用は早期かつ危険である。
LLMは、責任ある用途で診断を強化することができるが、医療の安全な民主化のための操作抵抗と文脈的理解を改善するために将来の研究が必要である。
関連論文リスト
- Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - LLM Sensitivity Evaluation Framework for Clinical Diagnosis [10.448772462311027]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。
臨床診断には、LSMの信頼性と感度に高い期待が必要である。
論文 参考訳(メタデータ) (2025-04-18T05:35:11Z) - Leveraging LLMs for Predicting Unknown Diagnoses from Clinical Notes [21.43498764977656]
放電サマリーはより完全な情報を提供する傾向があり、正確な診断を推測するのに役立ちます。
本研究は,大言語モデル(LLM)が臨床ノートから暗黙的に言及された診断を予測し,それに対応する薬剤にリンクできるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-28T02:15:57Z) - Medical Reasoning in LLMs: An In-Depth Analysis of DeepSeek R1 [0.0]
本研究は、100症例のMedQAを用いて、DeepSeek R1の専門的パターンに対する医学的推論を評価する。
このモデルは、診断精度93%を達成し、鑑別診断、ガイドラインに基づく治療選択、患者固有の因子の統合を通じて、体系的な臨床的判断を実証した。
誤り分析では, バイアスのアンカー, 競合するデータの整合性の課題, 代替案の探索不足, 過剰思考, 知識ギャップ, 中間的治療に対する決定的治療の早期優先順位付けなど, 持続的な限界が認められた。
論文 参考訳(メタデータ) (2025-03-27T09:18:08Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。
本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文 参考訳(メタデータ) (2024-10-09T06:00:05Z) - CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z) - Digital Diagnostics: The Potential Of Large Language Models In Recognizing Symptoms Of Common Illnesses [0.2995925627097048]
本研究は,患者症状を解釈し,一般的な疾患に適合する診断を判定することにより,各モデルの診断能力を評価する。
GPT-4は、医療データに基づくトレーニングの深部および完全な履歴から高い診断精度を示す。
Geminiは、病気のトリアージにおいて重要なツールとして高い精度で実行し、信頼性のあるモデルになる可能性を示している。
論文 参考訳(メタデータ) (2024-05-09T15:12:24Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z) - Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。
我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。
その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文 参考訳(メタデータ) (2023-07-10T21:28:26Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。