論文の概要: Language models are susceptible to incorrect patient self-diagnosis in
medical applications
- arxiv url: http://arxiv.org/abs/2309.09362v1
- Date: Sun, 17 Sep 2023 19:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:49:44.041473
- Title: Language models are susceptible to incorrect patient self-diagnosis in
medical applications
- Title(参考訳): 言語モデルは医学的応用において不正確な患者の自己診断の影響を受けやすい
- Authors: Rojin Ziaei and Samuel Schmidgall
- Abstract要約: 患者からの自己診断報告を含むように修正された米国の医療委員会試験からの複数項目の質問を含む様々なLSMを提示する。
以上の結果から, 誤った偏見検証情報を提案すると, LLMの診断精度は劇的に低下することが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are becoming increasingly relevant as a
potential tool for healthcare, aiding communication between clinicians,
researchers, and patients. However, traditional evaluations of LLMs on medical
exam questions do not reflect the complexity of real patient-doctor
interactions. An example of this complexity is the introduction of patient
self-diagnosis, where a patient attempts to diagnose their own medical
conditions from various sources. While the patient sometimes arrives at an
accurate conclusion, they more often are led toward misdiagnosis due to the
patient's over-emphasis on bias validating information. In this work we present
a variety of LLMs with multiple-choice questions from United States medical
board exams which are modified to include self-diagnostic reports from
patients. Our findings highlight that when a patient proposes incorrect
bias-validating information, the diagnostic accuracy of LLMs drop dramatically,
revealing a high susceptibility to errors in self-diagnosis.
- Abstract(参考訳): 大規模言語モデル(llm)は、臨床医、研究者、患者間のコミュニケーションを支援する医療の潜在的なツールとして、ますます重要になっている。
しかし,医学試験におけるLCMの従来の評価は,実際の患者と医師の相互作用の複雑さを反映していない。
この複雑さの例としては、患者が様々なソースから自身の疾患を診断しようとする患者自己診断の導入がある。
患者は、しばしば正確な結論に達するが、バイアス検証情報に対する過度な強調により、よりしばしば誤診断へと導かれる。
本研究は, 患者からの自己診断報告を含むように修正された米国医学会試験からの複数項目の質問を含む多種多様なLSMを提示する。
以上の結果から, 誤バイアス検証情報を提案すると, LLMの診断精度は劇的に低下し, 自己診断における誤りの可能性が示唆された。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Ask Patients with Patience: Enabling LLMs for Human-Centric Medical Dialogue with Grounded Reasoning [5.520419627866446]
Ask patients with Patience (APP) は,LLMが基底的推論に基づいて反復的に診断を洗練できる,最初のマルチターン対話である。
APPは診断予測において高い類似性スコアを達成し、地上の真理診断との整合性を示す。
APPは、ユーザアクセシビリティと共感の面でも優れており、複雑な医療言語とユーザ理解のギャップをさらに埋めている。
論文 参考訳(メタデータ) (2025-02-11T00:13:52Z) - Exploring the Inquiry-Diagnosis Relationship with Advanced Patient Simulators [5.217925404425509]
コンサルテーションプロセスにおける「問い合わせ」と「診断」の関係について検討する。
調査プロセスは,(1)主訴調査,(2)既知症状の特定,(3)随伴症状の調査,(4)家族や医療史の収集の4種類に分類される。
論文 参考訳(メタデータ) (2025-01-16T11:41:14Z) - DiversityMedQA: Assessing Demographic Biases in Medical Diagnosis using Large Language Models [2.750784330885499]
DiversityMedQAは,多彩な患者集団にわたる医療クエリに対する大規模言語モデル(LLM)応答を評価するために設計された,新しいベンチマークである。
以上の結果から,これらの変動に比較して,モデル性能に顕著な差が認められた。
論文 参考訳(メタデータ) (2024-09-02T23:37:20Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - Digital Diagnostics: The Potential Of Large Language Models In Recognizing Symptoms Of Common Illnesses [0.2995925627097048]
本研究は,患者症状を解釈し,一般的な疾患に適合する診断を判定することにより,各モデルの診断能力を評価する。
GPT-4は、医療データに基づくトレーニングの深部および完全な履歴から高い診断精度を示す。
Geminiは、病気のトリアージにおいて重要なツールとして高い精度で実行し、信頼性のあるモデルになる可能性を示している。
論文 参考訳(メタデータ) (2024-05-09T15:12:24Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Self-Diagnosis and Large Language Models: A New Front for Medical
Misinformation [8.738092015092207]
一般ユーザによる自己診断のレンズから,大規模言語モデル(LLM)の性能を評価する。
本研究では,実世界の事例を模倣したオープンエンド質問に対する応答を評価するテスト手法を開発した。
a) これらのモデルでは, 既知よりもパフォーマンスが悪く, b) 誤ったレコメンデーションを述べる際に, 過度な自信を含む特異な行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-07-10T21:28:26Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Towards Causality-Aware Inferring: A Sequential Discriminative Approach
for Medical Diagnosis [142.90770786804507]
医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。
この研究は、因果図を利用して、MDAにおけるこれらの重要な問題に対処しようとする。
本稿では,他の記録から知識を引き出すことにより,非記録的調査に効果的に答える確率に基づく患者シミュレータを提案する。
論文 参考訳(メタデータ) (2020-03-14T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。