Fugu-MT 論文翻訳(概要): Language models are susceptible to incorrect patient self-diagnosis in medical applications

論文の概要: Language models are susceptible to incorrect patient self-diagnosis in medical applications

arxiv url: http://arxiv.org/abs/2309.09362v1
Date: Sun, 17 Sep 2023 19:56:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 15:49:44.041473
Title: Language models are susceptible to incorrect patient self-diagnosis in medical applications
Title（参考訳）: 言語モデルは医学的応用において不正確な患者の自己診断の影響を受けやすい
Authors: Rojin Ziaei and Samuel Schmidgall
Abstract要約: 患者からの自己診断報告を含むように修正された米国の医療委員会試験からの複数項目の質問を含む様々なLSMを提示する。以上の結果から, 誤った偏見検証情報を提案すると, LLMの診断精度は劇的に低下することが明らかとなった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are becoming increasingly relevant as a potential tool for healthcare, aiding communication between clinicians, researchers, and patients. However, traditional evaluations of LLMs on medical exam questions do not reflect the complexity of real patient-doctor interactions. An example of this complexity is the introduction of patient self-diagnosis, where a patient attempts to diagnose their own medical conditions from various sources. While the patient sometimes arrives at an accurate conclusion, they more often are led toward misdiagnosis due to the patient's over-emphasis on bias validating information. In this work we present a variety of LLMs with multiple-choice questions from United States medical board exams which are modified to include self-diagnostic reports from patients. Our findings highlight that when a patient proposes incorrect bias-validating information, the diagnostic accuracy of LLMs drop dramatically, revealing a high susceptibility to errors in self-diagnosis.
Abstract（参考訳）: 大規模言語モデル(llm)は、臨床医、研究者、患者間のコミュニケーションを支援する医療の潜在的なツールとして、ますます重要になっている。しかし,医学試験におけるLCMの従来の評価は,実際の患者と医師の相互作用の複雑さを反映していない。この複雑さの例としては、患者が様々なソースから自身の疾患を診断しようとする患者自己診断の導入がある。患者は、しばしば正確な結論に達するが、バイアス検証情報に対する過度な強調により、よりしばしば誤診断へと導かれる。本研究は, 患者からの自己診断報告を含むように修正された米国医学会試験からの複数項目の質問を含む多種多様なLSMを提示する。以上の結果から, 誤バイアス検証情報を提案すると, LLMの診断精度は劇的に低下し, 自己診断における誤りの可能性が示唆された。

関連論文リスト

Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
ProMRVL-CAD: Proactive Dialogue System with Multi-Round Vision-Language Interactions for Computer-Aided Diagnosis [0.7430974817507225]
コンピュータ支援診断(ProMRVL-CAD)のためのLLMベースの対話システム、すなわちプロアクティブな多ラウンド視覚言語インタラクションを開発する。提案した ProMRVL-CAD システムでは,患者に対して,知識グラフをレコメンデーションシステムに統合することにより,一定の医療アクセスを提供することができる。
論文参考訳（メタデータ） (2025-02-15T01:14:23Z)
Ask Patients with Patience: Enabling LLMs for Human-Centric Medical Dialogue with Grounded Reasoning [5.520419627866446]
Ask patients with Patience (APP) は,LLMが基底的推論に基づいて反復的に診断を洗練できる,最初のマルチターン対話である。 APPは診断予測において高い類似性スコアを達成し、地上の真理診断との整合性を示す。 APPは、ユーザアクセシビリティと共感の面でも優れており、複雑な医療言語とユーザ理解のギャップをさらに埋めている。
論文参考訳（メタデータ） (2025-02-11T00:13:52Z)
DiversityMedQA: Assessing Demographic Biases in Medical Diagnosis using Large Language Models [2.750784330885499]
DiversityMedQAは,多彩な患者集団にわたる医療クエリに対する大規模言語モデル(LLM)応答を評価するために設計された,新しいベンチマークである。以上の結果から,これらの変動に比較して,モデル性能に顕著な差が認められた。
論文参考訳（メタデータ） (2024-09-02T23:37:20Z)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-22T17:44:40Z)
Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。 ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文参考訳（メタデータ） (2024-08-15T21:09:09Z)
Digital Diagnostics: The Potential Of Large Language Models In Recognizing Symptoms Of Common Illnesses [0.2995925627097048]
本研究は,患者症状を解釈し,一般的な疾患に適合する診断を判定することにより,各モデルの診断能力を評価する。 GPT-4は、医療データに基づくトレーニングの深部および完全な履歴から高い診断精度を示す。 Geminiは、病気のトリアージにおいて重要なツールとして高い精度で実行し、信頼性のあるモデルになる可能性を示している。
論文参考訳（メタデータ） (2024-05-09T15:12:24Z)
Conversational Disease Diagnosis via External Planner-Controlled Large Language Models [18.93345199841588]
本研究は,医師のエミュレートによる計画能力の向上を目的としたLCMに基づく診断システムを提案する。実際の患者電子カルテデータを利用して,仮想患者と医師とのシミュレーション対話を構築した。
論文参考訳（メタデータ） (2024-04-04T06:16:35Z)
Towards Reducing Diagnostic Errors with Interpretable Risk Prediction [18.474645862061426]
特定診断のリスクの増大または低下を示す患者EHRデータ中の証拠片をLCMを用いて同定する方法を提案する。私たちの究極の目標は、証拠へのアクセスを増やし、診断エラーを減らすことです。
論文参考訳（メタデータ） (2024-02-15T17:05:48Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Self-Diagnosis and Large Language Models: A New Front for Medical Misinformation [8.738092015092207]
一般ユーザによる自己診断のレンズから,大規模言語モデル(LLM)の性能を評価する。本研究では,実世界の事例を模倣したオープンエンド質問に対する応答を評価するテスト手法を開発した。 a) これらのモデルでは, 既知よりもパフォーマンスが悪く, b) 誤ったレコメンデーションを述べる際に, 過度な自信を含む特異な行動を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-07-10T21:28:26Z)
SPeC: A Soft Prompt-Based Calibration on Performance Variability of Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文参考訳（メタデータ） (2023-03-23T04:47:46Z)
Clinical Outcome Prediction from Admission Notes using Self-Supervised Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文参考訳（メタデータ） (2021-02-08T10:26:44Z)
Towards Causality-Aware Inferring: A Sequential Discriminative Approach for Medical Diagnosis [142.90770786804507]
医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。この研究は、因果図を利用して、MDAにおけるこれらの重要な問題に対処しようとする。本稿では,他の記録から知識を引き出すことにより,非記録的調査に効果的に答える確率に基づく患者シミュレータを提案する。
論文参考訳（メタデータ） (2020-03-14T02:05:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。