論文の概要: Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions
- arxiv url: http://arxiv.org/abs/2504.11373v1
- Date: Tue, 15 Apr 2025 16:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 23:28:08.111299
- Title: Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions
- Title(参考訳): がん神話:AIチャットボットの評価 : 偽の前提による患者の質問
- Authors: Wang Bill Zhu, Tianqi Chen, Ching Ying Lin, Jade Law, Mazen Jizzini, Jorge J. Nieva, Ruishan Liu, Robin Jia,
- Abstract要約: 実際の患者から得られた癌関連質問に対して,大言語モデル(LLMs)を評価した。
LLMは、しばしば質問における偽の前提を認識または対処するのに失敗する。
以上の結果から,LSMの臨床的信頼性に重大なギャップがあることが示唆された。
- 参考スコア(独自算出の注目度): 16.21971764311474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cancer patients are increasingly turning to large language models (LLMs) as a new form of internet search for medical information, making it critical to assess how well these models handle complex, personalized questions. However, current medical benchmarks focus on medical exams or consumer-searched questions and do not evaluate LLMs on real patient questions with detailed clinical contexts. In this paper, we first evaluate LLMs on cancer-related questions drawn from real patients, reviewed by three hematology oncology physicians. While responses are generally accurate, with GPT-4-Turbo scoring 4.13 out of 5, the models frequently fail to recognize or address false presuppositions in the questions-posing risks to safe medical decision-making. To study this limitation systematically, we introduce Cancer-Myth, an expert-verified adversarial dataset of 585 cancer-related questions with false presuppositions. On this benchmark, no frontier LLM -- including GPT-4o, Gemini-1.Pro, and Claude-3.5-Sonnet -- corrects these false presuppositions more than 30% of the time. Even advanced medical agentic methods do not prevent LLMs from ignoring false presuppositions. These findings expose a critical gap in the clinical reliability of LLMs and underscore the need for more robust safeguards in medical AI systems.
- Abstract(参考訳): がん患者は、医療情報のインターネット検索の新たな形態として、大きな言語モデル(LLM)に変わりつつあり、これらのモデルが複雑でパーソナライズされた質問をいかにうまく扱うかを評価することが重要になっている。
しかし、現在の医療ベンチマークでは、臨床検査や消費者が調査した質問に焦点をあてており、詳細な臨床コンテキストを持つ実際の患者質問に対するLCMの評価は行っていない。
本報告では, 実際の患者から引き出された癌関連質問に対するLSMの評価を, 3人の血液学腫瘍学医が行った。
反応は一般的に正確であるが、GPT-4-Turboは5点中4.13点を採点し、医療上の意思決定を安全にするための疑問を提起するリスクにおいて、偽の前提を認識または対処することがしばしば失敗する。
この制限を体系的に研究するために, 585 個の癌関連質問に対して, 疑似前置詞を用いて, 専門家が検証した敵対的データセットである Cancer-Myth を紹介した。
このベンチマークでは、GPT-4o、Gemini-1.Pro、Claude-3.5-Sonnetを含むフロンティアLSMは、これらの偽の前提を30%以上修正していない。
先進的な医療薬品法でさえ、LSMが偽の前提を無視するのを防ぐものではない。
これらの結果は,LSMの臨床的信頼性に重大なギャップを生じさせ,医療用AIシステムにおけるより堅牢な保護の必要性を浮き彫りにしている。
関連論文リスト
- ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - An Empirical Evaluation of Large Language Models on Consumer Health Questions [0.30723404270319693]
本研究は,MedRedQAにおけるいくつかの大規模言語モデル(LLM)の性能評価である。
GPT-4o miniは5つのモデルの審査員のうち4人に応じて専門家の反応に最も適しており、Mistral-7Bは5つのモデルの審査員のうち3人から最も低いスコアを得た。
論文 参考訳(メタデータ) (2024-12-31T01:08:15Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Addressing cognitive bias in medical language models [25.58126133789956]
BiasMedQAは、医療タスクに適用された大規模言語モデル(LLM)の認知バイアスを評価するためのベンチマークである。
USMLE(US Medical Licensing Exam)ステップ1、2、3の1273の質問に対して、6つのモデルを試した。
GPT-4は認知バイアスの影響を受けないLlama 2 70B-chatとPMC Llama 13Bとは対照的に, バイアスに対する耐性が顕著であった。
論文 参考訳(メタデータ) (2024-02-12T23:08:37Z) - Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - Challenges of GPT-3-based Conversational Agents for Healthcare [11.517862889784293]
本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。
MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。
分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。
論文 参考訳(メタデータ) (2023-08-28T15:12:34Z) - Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。
我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。
その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文 参考訳(メタデータ) (2023-07-10T21:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。