論文の概要: Cancer-Myth: Evaluating Large Language Models on Patient Questions with False Presuppositions
- arxiv url: http://arxiv.org/abs/2504.11373v3
- Date: Thu, 30 Oct 2025 20:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 13:41:53.391717
- Title: Cancer-Myth: Evaluating Large Language Models on Patient Questions with False Presuppositions
- Title(参考訳): がん神話:偽の前提による患者の質問に対する大規模言語モデルの評価
- Authors: Wang Bill Zhu, Tianqi Chen, Xinyan Velocity Yu, Ching Ying Lin, Jade Law, Mazen Jizzini, Jorge J. Nieva, Ruishan Liu, Robin Jia,
- Abstract要約: がん患者は、医療情報のための大きな言語モデル(LLM)に変わりつつある。
LLMは、がんに関連する問題において、偽の前提を認識または対処することができない。
我々は、単独でプロンプトを行うことは、偽の前提に対する信頼できる治療法ではないことを示す。
- 参考スコア(独自算出の注目度): 24.01781019459841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cancer patients are increasingly turning to large language models (LLMs) for medical information, making it critical to assess how well these models handle complex, personalized questions. However, current medical benchmarks focus on medical exams or consumer-searched questions and do not evaluate LLMs on real patient questions with patient details. In this paper, we first have three hematology-oncology physicians evaluate cancer-related questions drawn from real patients. While LLM responses are generally accurate, the models frequently fail to recognize or address false presuppositions in the questions, posing risks to safe medical decision-making. To study this limitation systematically, we introduce Cancer-Myth, an expert-verified adversarial dataset of 585 cancer-related questions with false presuppositions. On this benchmark, no frontier LLM -- including GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet -- corrects these false presuppositions more than $43\%$ of the time. To study mitigation strategies, we further construct a 150-question Cancer-Myth-NFP set, in which physicians confirm the absence of false presuppositions. We find typical mitigation strategies, such as adding precautionary prompts with GEPA optimization, can raise accuracy on Cancer-Myth to $80\%$, but at the cost of misidentifying presuppositions in $41\%$ of Cancer-Myth-NFP questions and causing a $10\%$ relative performance drop on other medical benchmarks. These findings highlight a critical gap in the reliability of LLMs, show that prompting alone is not a reliable remedy for false presuppositions, and underscore the need for more robust safeguards in medical AI systems.
- Abstract(参考訳): がん患者は、医療情報のための大きな言語モデル(LLM)に変わりつつあるため、これらのモデルが複雑でパーソナライズされた質問をいかにうまく処理するかを評価することが重要になっている。
しかし、現在の医療ベンチマークでは、検査や消費者が調査した質問に焦点をあてており、実際の患者の質問に対するLCMを患者の詳細で評価していない。
本報告ではまず, 実際の患者から引き出された癌関連質問を, 3名の血液科医に評価させる。
LLMの反応は一般的に正確であるが、モデルはしばしば疑問の偽の前提を認識したり対処したりせず、安全な医療的意思決定のリスクを負う。
この制限を体系的に研究するために, 585 個の癌関連質問に対して, 疑似前置詞を用いて, 専門家が検証した敵対的データセットである Cancer-Myth を紹介した。
このベンチマークでは、GPT-5、Gemini-2.5-Pro、Claude-4-Sonnetを含むフロンティアLSMは、これらの偽の前提を43\%以上の時間で修正していない。
さらに,150個の癌・マイスNFPセットを構築し,医師が偽の前提がないことを確認する。
GEPA最適化による予防的プロンプトの追加や、がん菌の精度の80\%の値上げなど、一般的な緩和策はありますが、がん菌NFPの411\%の質問で前置詞を誤同定し、他のベンチマークで10\%の相対的なパフォーマンス低下を引き起こします。
これらの発見は、LSMの信頼性の重大なギャップを浮き彫りにしており、偽の前提に対する信頼できる治療法ではないことを示し、医療AIシステムにおけるより堅牢な保護の必要性を浮き彫りにしている。
関連論文リスト
- Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [51.73411055162861]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - An Empirical Evaluation of Large Language Models on Consumer Health Questions [0.30723404270319693]
本研究は,MedRedQAにおけるいくつかの大規模言語モデル(LLM)の性能評価である。
GPT-4o miniは5つのモデルの審査員のうち4人に応じて専門家の反応に最も適しており、Mistral-7Bは5つのモデルの審査員のうち3人から最も低いスコアを得た。
論文 参考訳(メタデータ) (2024-12-31T01:08:15Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Addressing cognitive bias in medical language models [25.58126133789956]
BiasMedQAは、医療タスクに適用された大規模言語モデル(LLM)の認知バイアスを評価するためのベンチマークである。
USMLE(US Medical Licensing Exam)ステップ1、2、3の1273の質問に対して、6つのモデルを試した。
GPT-4は認知バイアスの影響を受けないLlama 2 70B-chatとPMC Llama 13Bとは対照的に, バイアスに対する耐性が顕著であった。
論文 参考訳(メタデータ) (2024-02-12T23:08:37Z) - Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - Challenges of GPT-3-based Conversational Agents for Healthcare [11.517862889784293]
本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。
MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。
分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。
論文 参考訳(メタデータ) (2023-08-28T15:12:34Z) - Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。
我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。
その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文 参考訳(メタデータ) (2023-07-10T21:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。