論文の概要: WHBench: Evaluating Frontier LLMs with Expert-in-the-Loop Validation on Women's Health Topics
- arxiv url: http://arxiv.org/abs/2604.00024v1
- Date: Wed, 11 Mar 2026 06:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.202775
- Title: WHBench: Evaluating Frontier LLMs with Expert-in-the-Loop Validation on Women's Health Topics
- Title(参考訳): WHBench:女性健康トピックのエキスパートによるフロンティアLDMの評価
- Authors: Sneha Maurya, Pragya Saboo, Girish Kumar,
- Abstract要約: 女性健康ベンチマーク(Women's Health Benchmark)は、10人の女性の健康トピックを対象とした47の専門家によるシナリオの評価スイートである。
臨床精度, 完全性, 安全性, コミュニケーション品質, 指示追従性, 公平性, 不確実性, ガイドライン順守性にまたがる23基準ルーブリックを用いて22種類のモデルを評価する。
- 参考スコア(独自算出の注目度): 0.6093095878992784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used for medical guidance, but women's health remains under-evaluated in benchmark design. We present the Women's Health Benchmark (WHBench), a targeted evaluation suite of 47 expert-crafted scenarios across 10 women's health topics, designed to expose clinically meaningful failure modes including outdated guidelines, unsafe omissions, dosing errors, and equity-related blind spots. We evaluate 22 models using a 23-criterion rubric spanning clinical accuracy, completeness, safety, communication quality, instruction following, equity, uncertainty handling, and guideline adherence, with safety-weighted penalties and server-side score recalculation. Across 3,102 attempted responses (3,100 scored), no model mean performance exceeds 75 percent; the best model reaches 72.1 percent. Even top models show low fully correct rates and substantial variation in harm rates. Inter-rater reliability is moderate at the response label level but high for model ranking, supporting WHBench utility for comparative system evaluation while highlighting the need for expert oversight in clinical deployment. WHBench provides a public, failure-mode-aware benchmark to track safer and more equitable progress in womens health AI.
- Abstract(参考訳): 大規模言語モデルは医療指導にますます使われてきているが、女性の健康は依然としてベンチマーク設計において過小評価されている。
WHBench(Women's Health Benchmark)は、10人の女性の健康トピックにまたがる47の専門家によるシナリオを対象とした評価スイートで、古いガイドライン、安全でない脱落、投薬エラー、株式関連盲点など、臨床的に有意義な障害モードを公開するように設計されている。
臨床精度,完全性,安全性,コミュニケーション品質,指示追従,公平性,不確実性ハンドリング,ガイドライン順守にまたがる23基準ルーブリックを用いて,安全重み付きペナルティとサーバ側のスコア再計算を施した22のモデルを評価する。
3,102件の回答(3,100点)で、モデルの平均性能は75%を超えておらず、最高のモデルは72.1%に達する。
トップモデルでさえ、完全に正しいレートが低く、ハーフレートがかなり変化する。
レータ間信頼性は応答ラベルレベルでは適度であるが, モデルランキングでは高く, WHBenchユーティリティを比較システム評価用としてサポートし, 臨床展開における専門家の監督の必要性を強調した。
WHBenchは、女性健康AIのより安全で公平な進歩を追跡するために、パブリックで障害対応のベンチマークを提供する。
関連論文リスト
- QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models [8.050059911826338]
LLM(Large Language Models)は、標準化された医療試験に優れるが、高いスコアは、現実世界の医療クエリに対する高品質な応答に変換できないことが多い。
実世界の医療LCM評価に適した生態学的に有効なベンチマークであるQuarkMedBenchを紹介する。
論文 参考訳(メタデータ) (2026-03-14T01:51:43Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - A Women's Health Benchmark for Large Language Models [26.831715552066694]
女性の健康に特化して大きな言語モデル(LLM)のパフォーマンスを評価する最初のベンチマークであるWHB(Women's Health Benchmark)を紹介する。
本ベンチマークでは,5つの専門分野をカバーする96個のモデル切り株を厳格に検証した。
現在のモデルでは、女性の健康ベンチマークで約60%の失敗率を示しており、パフォーマンスは専門性やエラータイプによって劇的に変化している。
論文 参考訳(メタデータ) (2025-12-18T19:44:28Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Truth, Trust, and Trouble: Medical AI on the Edge [16.87709061954049]
我々は1000以上の健康問題データセットを用いたベンチマークフレームワークを提案する。
正直さ、便利さ、無害さのモデルパフォーマンスを評価します。
短いショットプロンプトは精度を78%から85%に改善し、すべてのモデルが複雑なクエリの利便性を低下させる。
論文 参考訳(メタデータ) (2025-07-01T06:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。