論文の概要: Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models
- arxiv url: http://arxiv.org/abs/2605.20591v1
- Date: Wed, 20 May 2026 00:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.422509
- Title: Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models
- Title(参考訳): ノーハーム? Web展開医療大言語モデルにおける幻覚とアクターレベル乱用
- Authors: Sunday Oyinlola Ogundoyin, Muhammad Ikram, Rahat Masood,
- Abstract要約: Web 対応医療用大規模言語モデル (LLM) は幻覚、ポリシー非準拠、安全でない設計のリスクを生じさせる。
我々は,6,233個のMedGPTを大規模に評価し,1500個の成層試料と10個のオープンソースLCMについて評価した。
その結果,25~30%のMedGPTでは,下層モデルと中層モデルが最もリスクが高い事実精度が低いことがわかった。
- 参考スコア(独自算出の注目度): 1.2326533234282089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical large language models (LLMs), including custom medical GPTs (MedGPTs) and open-source models, are increasingly deployed on web platforms to provide clinical guidance. However, they pose risks of hallucination, policy noncompliance, and unsafe design. We conduct a large-scale assessment of 6,233 MedGPTs, evaluating a stratified sample of 1,500, together with 10 open-source LLMs. We introduce two frameworks: MedGPT-HEval for hallucination detection and an LLM-based pipeline for assessing policy violations and developer intent. Our results show that 25-30% of MedGPTs exhibit low factual accuracy, with bottom- and middle-tier models at highest risk; 33.6-54.3% violate operational thresholds, and 57.06% of Action-enabled models lack adequate privacy disclosures. Compared with open-source models, MedGPTs achieve higher factual accuracy and semantic alignment, though open-source models are more stable. These results reveal systemic gaps in hallucination and compliance, highlighting the need for multi-metric evaluation and stronger safeguards. We release HAA-MedGPT, a structured dataset that supports future research on the safety of web-facing medical LLMs.
- Abstract(参考訳): カスタム医療用GPT(MedGPTs)やオープンソースモデルを含む医療用大言語モデル(LLMs)は、臨床ガイダンスを提供するため、Webプラットフォームにますますデプロイされている。
しかし、幻覚、政策不遵守、安全でない設計のリスクが生じる。
我々は,6,233個のMedGPTを大規模に評価し,1500個の成層試料と10個のオープンソースLCMについて評価した。
幻覚検出のためのMedGPT-HEvalと、ポリシー違反と開発者の意図を評価するLLMベースのパイプラインの2つのフレームワークを紹介する。
以上の結果から,MedGPTの25~30%は,下層モデルと中層モデルが最もリスクが高く,33.6~54.3%が運用上のしきい値に違反し,57.06%が適切なプライバシー開示を欠いていることが明らかとなった。
オープンソースモデルと比較して、MedGPTはより高速な事実精度とセマンティックアライメントを実現するが、オープンソースモデルはより安定している。
これらの結果から,幻覚とコンプライアンスの体系的なギャップが明らかとなり,マルチメトリック評価の必要性とより強力な安全対策の必要性が浮き彫りになった。
我々は,Web 対応医療用 LLM の安全性に関する今後の研究を支援する構造化データセットである HAA-MedGPT をリリースする。
関連論文リスト
- Medmarks: A Comprehensive Open-Source LLM Benchmark Suite for Medical Tasks [12.131182745922843]
Medmarksは、質問応答、情報抽出、医療計算、オープンな臨床推論にまたがる30のベンチマークを備えた、完全なオープンソース評価スイートである。
検証基準とLCM-as-a-Judgeを用いて,71構成の61モデルの体系的評価を行う。
論文 参考訳(メタデータ) (2026-05-02T12:29:03Z) - Evaluating Small Open LLMs for Medical Question Answering: A Practical Framework [0.0]
医学質問応答における大規模言語モデル(LLM)は、平均的精度以上の要求を満たす。
Redditのようなオンライン健康コミュニティは、何百万人ものユーザーにとって、医療情報の主要な情報源となっている。
本稿では,小規模かつローカルにデプロイ可能なオープンウェイトLCMを医療質問応答上で評価するための,実用的なオープンソース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-12T08:56:15Z) - When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。
LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。
本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文 参考訳(メタデータ) (2026-02-27T21:09:43Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - TheBlueScrubs-v1, a comprehensive curated medical dataset derived from the internet [1.4043931310479378]
BlueScrubs-v1は、広範囲のインターネットコーパスから得られた2500億以上の医療トークンの収集されたデータセットである。
各テキストには、医療関連性、精度、事実の詳細、安全性と倫理基準を含む3つのLCMベースの品質スコアが割り当てられている。
このData Descriptorは、データセットの作成と検証について詳述し、医療AI研究の潜在的有用性について説明している。
論文 参考訳(メタデータ) (2025-04-01T22:25:19Z) - CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - MedAlpaca -- An Open-Source Collection of Medical Conversational AI Models and Training Data [37.60056509129154]
大規模言語モデル(LLM)は、医療、診断、患者医療、教育を改善するためのかなりの約束を持っている。
しかし、患者のプライバシを保護するために、オンプレミスでデプロイできるオープンソースモデルが緊急に必要である。
本稿では、160,000以上のエントリからなる革新的なデータセットについて紹介する。
論文 参考訳(メタデータ) (2023-04-14T11:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。