論文の概要: Large language models provide unsafe answers to patient-posed medical questions
- arxiv url: http://arxiv.org/abs/2507.18905v2
- Date: Mon, 04 Aug 2025 21:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.759282
- Title: Large language models provide unsafe answers to patient-posed medical questions
- Title(参考訳): 大規模言語モデルは患者が提示する医療的問題に対する安全でない回答を提供する
- Authors: Rachel L. Draelos, Samina Afreen, Barbara Blasko, Tiffany L. Brazile, Natasha Chase, Dimple Patel Desai, Jessica Evert, Heather L. Gardner, Lauren Herrmann, Aswathy Vaikom House, Stephanie Kass, Marianne Kavan, Kirshma Khemani, Amanda Koire, Lauren M. McDonald, Zahraa Rabeeah, Amy Shah,
- Abstract要約: AnthropicによるClaude、GoogleによるGemini、OpenAIによるGPT-4o、MetaによるLlama3-70B、新しいデータセットであるHealthAdviceの4つの公開チャットボットの安全性を比較した。
問題は21.6%(クラド)から43.2%(ラマ)に変化し、安全でない反応は5%(クラド)から13%(GPT-4o, Llama)に変化している。
- 参考スコア(独自算出の注目度): 0.12568469427065204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Millions of patients are already using large language model (LLM) chatbots for medical advice on a regular basis, raising patient safety concerns. This physician-led red-teaming study compares the safety of four publicly available chatbots--Claude by Anthropic, Gemini by Google, GPT-4o by OpenAI, and Llama3-70B by Meta--on a new dataset, HealthAdvice, using an evaluation framework that enables quantitative and qualitative analysis. In total, 888 chatbot responses are evaluated for 222 patient-posed advice-seeking medical questions on primary care topics spanning internal medicine, women's health, and pediatrics. We find statistically significant differences between chatbots. The rate of problematic responses varies from 21.6 percent (Claude) to 43.2 percent (Llama), with unsafe responses varying from 5 percent (Claude) to 13 percent (GPT-4o, Llama). Qualitative results reveal chatbot responses with the potential to lead to serious patient harm. This study suggests that millions of patients could be receiving unsafe medical advice from publicly available chatbots, and further work is needed to improve the clinical safety of these powerful tools.
- Abstract(参考訳): 何百万もの患者が、患者の安全を懸念する医療アドバイスのために、すでに大規模言語モデル(LLM)チャットボットを使用している。
この医師主導のレッドチーム研究は、ThropicのClaude、GoogleのGemini、OpenAIのGPT-4o、MetaのLlama3-70Bの4つの公開チャットボットの安全性を比較している。
内科, 女性保健, 小児科を対象とするプライマリケアについて, 222名を対象に, 888名のチャットボットの回答を評価した。
チャットボット間で統計的に有意な違いがある。
問題は21.6%(クラド)から43.2%(ラマ)に変化し、安全でない反応は5%(クラド)から13%(グラマ)に変化している。
質的な結果から、チャットボットの反応が重篤な患者に害を与える可能性があることが分かる。
この研究は、数百万の患者が公開チャットボットから安全でない医療アドバイスを受けており、これらの強力なツールの臨床的安全性を改善するためにさらなる努力が必要であることを示唆している。
関連論文リスト
- Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [51.73411055162861]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - Development and Evaluation of HopeBot: an LLM-based chatbot for structured and interactive PHQ-9 depression screening [48.355615275247786]
HopeBotは、PHQ-9(Patent Health Questionnaire-9)を検索強化世代とリアルタイムの明確化を用いて管理する。
内部調査では、英国と中国の132人の成人が、自己管理版とチャットボット版の両方を完成させた。
全体の87.1%は、ホープボットの再利用や推奨を表明している。
論文 参考訳(メタデータ) (2025-07-08T13:41:22Z) - Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions [16.21971764311474]
実際の患者から得られた癌関連質問に対して,大言語モデル(LLMs)を評価した。
LLMは、しばしば質問における偽の前提を認識または対処するのに失敗する。
以上の結果から,LSMの臨床的信頼性に重大なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2025-04-15T16:37:32Z) - Clean & Clear: Feasibility of Safe LLM Clinical Guidance [2.0194749607835014]
臨床ガイドラインは、現代医療における安全なエビデンスベースの医療の中心である。
オープンウェイトなLlama-3.1-8B LLMを開発した。
73%の回答が関連性が高いと評価され,臨床状況の理解が強かった。
論文 参考訳(メタデータ) (2025-03-26T19:36:43Z) - Conversational Medical AI: Ready for Practice [0.19791587637442667]
実際の医療環境において,医師が監督する会話エージェントの大規模評価を行う。
当社のエージェントであるMoは、既存の医療アドバイスチャットサービスに統合されました。
論文 参考訳(メタデータ) (2024-11-19T19:00:31Z) - Assessing Empathy in Large Language Models with Real-World Physician-Patient Interactions [9.327472312657392]
医療領域へのLarge Language Models(LLMs)の統合は、患者のケアとサポートを大幅に強化する可能性がある。
本研究は、ChatGPTが医師が通常提供するものよりも共感の度合いが高いかどうかを調査する。
マヨクリニックから患者メッセージと医師の回答の非特定データセットを収集し,ChatGPTを用いて代替応答を生成する。
論文 参考訳(メタデータ) (2024-05-26T01:58:57Z) - How Reliable AI Chatbots are for Disease Prediction from Patient Complaints? [0.0]
本研究は,AIチャットボット,特にGPT 4.0,Claude 3 Opus,Gemini Ultra 1.0の信頼性を,救急部門における患者の苦情から疾患を予測するために検討した。
結果は、GPT 4.0は数ショットデータの増加で高い精度を達成し、Gemini Ultra 1.0は少ないサンプルで良好に動作し、Claude 3 Opusは一貫性のある性能を維持していることを示唆している。
論文 参考訳(メタデータ) (2024-05-21T22:00:13Z) - Healthcare Copilot: Eliciting the Power of General LLMs for Medical
Consultation [96.22329536480976]
医療相談用に設計された医療コパイロットの構築について紹介する。
提案した医療コパイロットは,(1)効果的で安全な患者との対話に責任を負う対話コンポーネント,2)現在の会話データと過去の患者情報の両方を記憶する記憶コンポーネント,3)処理コンポーネント,そして,対話全体を要約し,報告を生成する。
提案したヘルスケア・コパイロットを評価するために,ChatGPT を用いた仮想患者とコーピロとの対話を行う仮想患者と,対話の質を評価するための評価器の2つの役割を自動評価する手法を実装した。
論文 参考訳(メタデータ) (2024-02-20T22:26:35Z) - Impact of Large Language Model Assistance on Patients Reading Clinical Notes: A Mixed-Methods Study [46.5728291706842]
臨床記録をより読みやすくするために,大言語モデル(LLM)を用いた患者対応ツールを開発した。
乳がんの既往歴のある患者から寄贈された臨床記録と臨床医からの合成ノートを用いて,本ツールの試験を行った。
論文 参考訳(メタデータ) (2024-01-17T23:14:52Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。