論文の概要: A Women's Health Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2512.17028v1
- Date: Thu, 18 Dec 2025 19:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.152312
- Title: A Women's Health Benchmark for Large Language Models
- Title(参考訳): 大規模言語モデルのための女性の健康ベンチマーク
- Authors: Victoria-Elisabeth Gruber, Razvan Marinescu, Diego Fajardo, Amin H. Nassar, Christopher Arkfeld, Alexandria Ludlow, Shama Patel, Mehrnoosh Samaei, Valerie Klug, Anna Huber, Marcel Gühner, Albert Botta i Orfila, Irene Lagoja, Kimya Tarr, Haleigh Larson, Mary Beth Howard,
- Abstract要約: 女性の健康に特化して大きな言語モデル(LLM)のパフォーマンスを評価する最初のベンチマークであるWHB(Women's Health Benchmark)を紹介する。
本ベンチマークでは,5つの専門分野をカバーする96個のモデル切り株を厳格に検証した。
現在のモデルでは、女性の健康ベンチマークで約60%の失敗率を示しており、パフォーマンスは専門性やエラータイプによって劇的に変化している。
- 参考スコア(独自算出の注目度): 26.831715552066694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become primary sources of health information for millions, their accuracy in women's health remains critically unexamined. We introduce the Women's Health Benchmark (WHB), the first benchmark evaluating LLM performance specifically in women's health. Our benchmark comprises 96 rigorously validated model stumps covering five medical specialties (obstetrics and gynecology, emergency medicine, primary care, oncology, and neurology), three query types (patient query, clinician query, and evidence/policy query), and eight error types (dosage/medication errors, missing critical information, outdated guidelines/treatment recommendations, incorrect treatment advice, incorrect factual information, missing/incorrect differential diagnosis, missed urgency, and inappropriate recommendations). We evaluated 13 state-of-the-art LLMs and revealed alarming gaps: current models show approximately 60\% failure rates on the women's health benchmark, with performance varying dramatically across specialties and error types. Notably, models universally struggle with "missed urgency" indicators, while newer models like GPT-5 show significant improvements in avoiding inappropriate recommendations. Our findings underscore that AI chatbots are not yet fully able of providing reliable advice in women's health.
- Abstract(参考訳): 大規模言語モデル(LLM)が数百万の健康情報の主要な情報源となるにつれ、女性の健康状態の正確性は批判的に評価されないままである。
女性保健ベンチマーク(WHB: Women's Health Benchmark)は、女性の健康に特にLLMのパフォーマンスを評価する最初のベンチマークである。
本ベンチマークでは, 5つの専門分野(産婦人科, 救急医療, プライマリケア, オンコロジー, 神経学), 3つのクエリタイプ(患者クエリ, 臨床クエリ, エビデンス/警察クエリ), 8つのエラータイプ(ドセージ/メディケーションエラー, 重要な情報不足, 過去のガイドライン/治療レコメンデーション, 誤った治療アドバイス, 誤った事実情報, 欠如/誤鑑別診断, 緊急性の欠如, 不適切な勧告)を厳密に検証した。
現在のモデルでは、女性の健康ベンチマークで約60倍の失敗率を示し、パフォーマンスは専門性やエラータイプによって劇的に変化している。
特に、GPT-5のような新しいモデルは不適切なレコメンデーションを避けるために大幅に改善されている。
我々の発見は、AIチャットボットがまだ女性の健康に信頼できるアドバイスを提供していないことを裏付けている。
関連論文リスト
- EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - HealthQA-BR: A System-Wide Benchmark Reveals Critical Knowledge Gaps in Large Language Models [0.0]
HealthQA-BRは、ポルトガル語を話す医療のための最初の大規模システムワイドベンチマークである。
医学や専門知識だけでなく、看護、歯科、心理学、社会労働、その他の関連医療分野の知識も独自に評価している。
論文 参考訳(メタデータ) (2025-06-16T07:40:25Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。
本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文 参考訳(メタデータ) (2024-10-09T06:00:05Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。