論文の概要: Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions
- arxiv url: http://arxiv.org/abs/2504.11373v1
- Date: Tue, 15 Apr 2025 16:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:15.146593
- Title: Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions
- Title(参考訳): がん神話:AIチャットボットの評価 : 偽の前提による患者の質問
- Authors: Wang Bill Zhu, Tianqi Chen, Ching Ying Lin, Jade Law, Mazen Jizzini, Jorge J. Nieva, Ruishan Liu, Robin Jia,
- Abstract要約: 実際の患者から得られた癌関連質問に対して,大言語モデル(LLMs)を評価した。
LLMは、しばしば質問における偽の前提を認識または対処するのに失敗する。
以上の結果から,LSMの臨床的信頼性に重大なギャップがあることが示唆された。
- 参考スコア(独自算出の注目度): 16.21971764311474
- License:
- Abstract: Cancer patients are increasingly turning to large language models (LLMs) as a new form of internet search for medical information, making it critical to assess how well these models handle complex, personalized questions. However, current medical benchmarks focus on medical exams or consumer-searched questions and do not evaluate LLMs on real patient questions with detailed clinical contexts. In this paper, we first evaluate LLMs on cancer-related questions drawn from real patients, reviewed by three hematology oncology physicians. While responses are generally accurate, with GPT-4-Turbo scoring 4.13 out of 5, the models frequently fail to recognize or address false presuppositions in the questions-posing risks to safe medical decision-making. To study this limitation systematically, we introduce Cancer-Myth, an expert-verified adversarial dataset of 585 cancer-related questions with false presuppositions. On this benchmark, no frontier LLM -- including GPT-4o, Gemini-1.Pro, and Claude-3.5-Sonnet -- corrects these false presuppositions more than 30% of the time. Even advanced medical agentic methods do not prevent LLMs from ignoring false presuppositions. These findings expose a critical gap in the clinical reliability of LLMs and underscore the need for more robust safeguards in medical AI systems.
- Abstract(参考訳): がん患者は、医療情報のインターネット検索の新たな形態として、大きな言語モデル(LLM)に変わりつつあり、これらのモデルが複雑でパーソナライズされた質問をいかにうまく扱うかを評価することが重要になっている。
しかし、現在の医療ベンチマークでは、臨床検査や消費者が調査した質問に焦点をあてており、詳細な臨床コンテキストを持つ実際の患者質問に対するLCMの評価は行っていない。
本報告では, 実際の患者から引き出された癌関連質問に対するLSMの評価を, 3人の血液学腫瘍学医が行った。
反応は一般的に正確であるが、GPT-4-Turboは5点中4.13点を採点し、医療上の意思決定を安全にするための疑問を提起するリスクにおいて、偽の前提を認識または対処することがしばしば失敗する。
この制限を体系的に研究するために, 585 個の癌関連質問に対して, 疑似前置詞を用いて, 専門家が検証した敵対的データセットである Cancer-Myth を紹介した。
このベンチマークでは、GPT-4o、Gemini-1.Pro、Claude-3.5-Sonnetを含むフロンティアLSMは、これらの偽の前提を30%以上修正していない。
先進的な医療薬品法でさえ、LSMが偽の前提を無視するのを防ぐものではない。
これらの結果は,LSMの臨床的信頼性に重大なギャップを生じさせ,医療用AIシステムにおけるより堅牢な保護の必要性を浮き彫りにしている。
関連論文リスト
- An Empirical Evaluation of Large Language Models on Consumer Health Questions [0.30723404270319693]
本研究は,MedRedQAにおけるいくつかの大規模言語モデル(LLM)の性能評価である。
GPT-4o miniは5つのモデルの審査員のうち4人に応じて専門家の反応に最も適しており、Mistral-7Bは5つのモデルの審査員のうち3人から最も低いスコアを得た。
論文 参考訳(メタデータ) (2024-12-31T01:08:15Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Addressing cognitive bias in medical language models [25.58126133789956]
BiasMedQAは、医療タスクに適用された大規模言語モデル(LLM)の認知バイアスを評価するためのベンチマークである。
USMLE(US Medical Licensing Exam)ステップ1、2、3の1273の質問に対して、6つのモデルを試した。
GPT-4は認知バイアスの影響を受けないLlama 2 70B-chatとPMC Llama 13Bとは対照的に, バイアスに対する耐性が顕著であった。
論文 参考訳(メタデータ) (2024-02-12T23:08:37Z) - Quality of Answers of Generative Large Language Models vs Peer Patients
for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。
GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。
GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文 参考訳(メタデータ) (2024-01-23T22:03:51Z) - Challenges of GPT-3-based Conversational Agents for Healthcare [11.517862889784293]
本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。
MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。
分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。
論文 参考訳(メタデータ) (2023-08-28T15:12:34Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Evaluation of GPT-3.5 and GPT-4 for supporting real-world information
needs in healthcare delivery [17.47170218010073]
本研究の目的は, 2つの大規模言語モデル (LLM) が, 医師が提供した情報ニーズを, 安全かつ一致した方法で情報相談サービスに提供できるかどうかを判断することであった。
GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。
回答の20%未満は、情報相談サービスからの回答と一致し、回答には幻覚的基準が含まれており、医師は被害を構成するものについて分割された。
論文 参考訳(メタデータ) (2023-04-26T17:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。