論文の概要: LLM Sensitivity Evaluation Framework for Clinical Diagnosis
- arxiv url: http://arxiv.org/abs/2504.13475v1
- Date: Fri, 18 Apr 2025 05:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 19:09:27.332761
- Title: LLM Sensitivity Evaluation Framework for Clinical Diagnosis
- Title(参考訳): 臨床診断のためのLCM感度評価フレームワーク
- Authors: Chenwei Yan, Xiangling Fu, Yuxuan Xiong, Tianyi Wang, Siu Cheung Hui, Ji Wu, Xien Liu,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。
臨床診断には、LSMの信頼性と感度に高い期待が必要である。
- 参考スコア(独自算出の注目度): 10.448772462311027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive performance across various domains. However, for clinical diagnosis, higher expectations are required for LLM's reliability and sensitivity: thinking like physicians and remaining sensitive to key medical information that affects diagnostic reasoning, as subtle variations can lead to different diagnosis results. Yet, existing works focus mainly on investigating the sensitivity of LLMs to irrelevant context and overlook the importance of key information. In this paper, we investigate the sensitivity of LLMs, i.e. GPT-3.5, GPT-4, Gemini, Claude3 and LLaMA2-7b, to key medical information by introducing different perturbation strategies. The evaluation results highlight the limitations of current LLMs in remaining sensitive to key medical information for diagnostic decision-making. The evolution of LLMs must focus on improving their reliability, enhancing their ability to be sensitive to key information, and effectively utilizing this information. These improvements will enhance human trust in LLMs and facilitate their practical application in real-world scenarios. Our code and dataset are available at https://github.com/chenwei23333/DiagnosisQA.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。
しかし, 臨床診断においては, LLMの信頼性や感度に高い期待が求められている。医師のように考え, 診断推論に影響を与える重要な医療情報に敏感なままであり, 微妙な変化は診断結果が異なる可能性がある。
しかし、既存の研究は、LLMの無関係な文脈に対する感受性を調査し、キー情報の重要性を軽視することに集中している。
本稿では,GPT-3.5,GPT-4,Gemini,Claude3,LLaMA2-7bといったLSMを,異なる摂動戦略を導入して重要な医療情報に対する感受性について検討する。
評価結果は,診断決定のための重要な医療情報に敏感な現状のLCMの限界を浮き彫りにした。
LLMの進化は、信頼性の向上、重要な情報に敏感な能力の向上、そしてこの情報を有効に活用することに集中する必要がある。
これらの改善により、LLMに対する人間の信頼が向上し、現実のシナリオにおける実践的な適用が促進される。
コードとデータセットはhttps://github.com/chenwei23333/DiagnosisQA.comで公開されています。
関連論文リスト
- Medical large language models are easily distracted [0.8211696054238238]
大規模言語モデル(LLM)は医学を変革する可能性を持っているが、実際の臨床シナリオには、パフォーマンスを妨げる余分な情報が含まれている。
MedDistractQAは,実世界の気晴らしをシミュレートしたUSMLEスタイルの質問を用いたベンチマークである。
論文 参考訳(メタデータ) (2025-04-01T21:34:01Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - The Reliability of LLMs for Medical Diagnosis: An Examination of Consistency, Manipulation, and Contextual Awareness [0.0]
大規模言語モデル(LLM)は、先進的な診断で医療の民主化を約束する。
本研究は, 整合性, 操作のレジリエンス, コンテキスト統合に焦点をあてた診断信頼性を評価する。
LLMの操作や文脈認識の制限に対する脆弱性は、臨床使用において課題となる。
論文 参考訳(メタデータ) (2025-03-02T11:50:16Z) - Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文 参考訳(メタデータ) (2024-06-14T11:10:17Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Deciphering Diagnoses: How Large Language Models Explanations Influence
Clinical Decision Making [0.0]
大きな言語モデル(LLM)は、医学的な決定のための平文の説明を生成するための有望なツールとして現れています。
本研究は, 患者の苦情に基づく診断のための説明書作成におけるLCMの有効性と信頼性について検討した。
論文 参考訳(メタデータ) (2023-10-03T00:08:23Z) - Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。
我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。
その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文 参考訳(メタデータ) (2023-07-10T21:28:26Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。