論文の概要: Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.04325v1
- Date: Wed, 06 Aug 2025 11:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.690306
- Title: Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models
- Title(参考訳): リーダーボードを超えて - 大きな言語モデルのための医療ベンチマークを再考する
- Authors: Zizhan Ma, Wenxuan Wang, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Wenting Chen, Linlin Shen,
- Abstract要約: MedCheckは、医療ベンチマーク用に設計された最初のライフサイクル指向アセスメントフレームワークである。
我々のフレームワークは、設計からガバナンスまで、ベンチマークの開発を5つの連続的な段階に分解し、46の医学的基準の包括的なチェックリストを提供する。
本分析では,臨床実践からの深い切り離し,無害な汚染リスクによるデータの整合性の危機,モデルロバスト性や不確実性認識といった安全クリティカルな評価の側面を体系的に無視することなど,全身的な問題を明らかにする。
- 参考スコア(独自算出の注目度): 46.81512544528928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) show significant potential in healthcare, prompting numerous benchmarks to evaluate their capabilities. However, concerns persist regarding the reliability of these benchmarks, which often lack clinical fidelity, robust data management, and safety-oriented evaluation metrics. To address these shortcomings, we introduce MedCheck, the first lifecycle-oriented assessment framework specifically designed for medical benchmarks. Our framework deconstructs a benchmark's development into five continuous stages, from design to governance, and provides a comprehensive checklist of 46 medically-tailored criteria. Using MedCheck, we conducted an in-depth empirical evaluation of 53 medical LLM benchmarks. Our analysis uncovers widespread, systemic issues, including a profound disconnect from clinical practice, a crisis of data integrity due to unmitigated contamination risks, and a systematic neglect of safety-critical evaluation dimensions like model robustness and uncertainty awareness. Based on these findings, MedCheck serves as both a diagnostic tool for existing benchmarks and an actionable guideline to foster a more standardized, reliable, and transparent approach to evaluating AI in healthcare.
- Abstract(参考訳): 大規模言語モデル(LLM)は医療において大きな可能性を示し、多くのベンチマークでその能力を評価する。
しかし、これらのベンチマークの信頼性に関する懸念は継続しており、臨床の忠実さ、堅牢なデータ管理、安全指向の評価基準が欠如していることが多い。
これらの欠点に対処するために、医療ベンチマークに特化したライフサイクル指向アセスメントフレームワークであるMedCheckを紹介します。
我々のフレームワークは、設計からガバナンスまで、ベンチマークの開発を5つの連続的な段階に分解し、46の医学的基準の包括的なチェックリストを提供する。
MedCheck を用いて,53 の医療用 LLM ベンチマークの詳細な評価を行った。
本分析では,臨床実践からの深い切り離し,無害な汚染リスクによるデータの整合性の危機,モデルロバスト性や不確実性認識といった安全クリティカルな評価の側面を体系的に無視することなど,全身的な問題を明らかにする。
これらの結果に基づいて、MedCheckは既存のベンチマークの診断ツールと、医療におけるAIを評価するためのより標準化され、信頼性が高く、透明なアプローチを促進するための実行可能なガイドラインの両方を提供する。
関連論文リスト
- Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文 参考訳(メタデータ) (2025-07-31T18:16:10Z) - From Feedback to Checklists: Grounded Evaluation of AI-Generated Clinical Notes [26.750112195124284]
本稿では,実際のユーザフィードバックを構造化されたチェックリストに抽出してノート評価を行うパイプラインを提案する。
21,000人以上の臨床経験から得られた特定データを用いて,フィードバックに基づくチェックリストがベースラインアプローチより優れていることを示す。
オフラインの調査設定では、チェックリストは、選択した品質閾値以下になる可能性のあるメモを特定するのに役立つ。
論文 参考訳(メタデータ) (2025-07-23T17:28:31Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [51.73411055162861]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [38.02853540388593]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Trustworthy Medical Question Answering: An Evaluation-Centric Survey [36.06747842975472]
医療質問応答システムにおける信頼性の6つの重要な側面を体系的に検討した。
モデル改善を促進する評価誘導手法を解析する。
我々は, LLM を用いた医療用QAの安全性, 信頼性, 透明性の確保に向けた今後の研究方針を提案する。
論文 参考訳(メタデータ) (2025-06-04T07:48:10Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。