論文の概要: MedEthicsQA: A Comprehensive Question Answering Benchmark for Medical Ethics Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2506.22808v1
- Date: Sat, 28 Jun 2025 08:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.580408
- Title: MedEthicsQA: A Comprehensive Question Answering Benchmark for Medical Ethics Evaluation of LLMs
- Title(参考訳): MedEthicsQA: LLMの医療倫理評価のための総合的質問回答ベンチマーク
- Authors: Jianhui Wei, Zijie Meng, Zikai Xiao, Tianxiang Hu, Yang Feng, Zhijie Zhou, Jian Wu, Zuozhu Liu,
- Abstract要約: 本稿では, LLM における医療倫理評価のために, $textbf5,623$ 複数選択質問と $textbf5,351$ オープンエンド質問からなる総合的なベンチマークである $textbfMedEthicsQA$を紹介する。
我々は、グローバルな医療倫理基準を統合した階層的な分類を体系的に確立し、このベンチマークは広く使われている医療データセット、権威ある質問銀行、文献から派生したシナリオを包含する。
- 参考スコア(独自算出の注目度): 18.92960063905292
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Medical Large Language Models (MedLLMs) have demonstrated remarkable potential in clinical tasks, their ethical safety remains insufficiently explored. This paper introduces $\textbf{MedEthicsQA}$, a comprehensive benchmark comprising $\textbf{5,623}$ multiple-choice questions and $\textbf{5,351}$ open-ended questions for evaluation of medical ethics in LLMs. We systematically establish a hierarchical taxonomy integrating global medical ethical standards. The benchmark encompasses widely used medical datasets, authoritative question banks, and scenarios derived from PubMed literature. Rigorous quality control involving multi-stage filtering and multi-faceted expert validation ensures the reliability of the dataset with a low error rate ($2.72\%$). Evaluation of state-of-the-art MedLLMs exhibit declined performance in answering medical ethics questions compared to their foundation counterparts, elucidating the deficiencies of medical ethics alignment. The dataset, registered under CC BY-NC 4.0 license, is available at https://github.com/JianhuiWei7/MedEthicsQA.
- Abstract(参考訳): 医療大言語モデル (MedLLMs) は, 臨床作業において顕著な可能性を示したが, 倫理的安全性は十分に調査されていない。
本稿では, LLM における医療倫理評価のために, $\textbf{MedEthicsQA}$ と $\textbf{5,623}$ と $\textbf{5,351}$ の総合的なベンチマークを紹介する。
我々は、グローバルな医療倫理基準を統合する階層的な分類を体系的に確立する。
このベンチマークには、広く使われている医療データセット、権威ある質問銀行、PubMed文学に由来するシナリオが含まれている。
多段階フィルタリングと多面的専門家による検証を含む厳密な品質管理は、データセットの信頼性を低いエラー率(2.72 %$)で保証する。
最先端のMedLLMの評価は、医療倫理に関する質問に対して、基礎的な質問に対して回答する際の成績が低下し、医療倫理の整合性の欠如が判明した。
このデータセットはCC BY-NC 4.0ライセンスで登録されており、https://github.com/JianhuiWei7/MedEthicsQAで入手できる。
関連論文リスト
- LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [38.02853540388593]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - AMQA: An Adversarial Dataset for Benchmarking Bias of LLMs in Medicine and Healthcare [26.165474297359843]
大規模言語モデル(LLM)は、医学的診断問題において専門家レベルの精度に達している。
しかし、彼らの過ちと背後にある偏見は、命にかかわるリスクを引き起こす。
本稿では,AMQA(Adversarial Medical Question-Answering dataset)を提案する。
論文 参考訳(メタデータ) (2025-05-26T06:24:20Z) - MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.83722922095852]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。
MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
ベンチマークで18の先行モデルを評価した。
論文 参考訳(メタデータ) (2025-01-30T14:07:56Z) - A Benchmark for Long-Form Medical Question Answering [4.815957808858573]
長期医療質問応答(QA)における大規模言語モデル(LLM)の評価のためのベンチマークの欠如
既存のQA評価ベンチマークのほとんどは、自動メトリクスと複数項目の質問に焦点を当てている。
本研究は,医科医が注釈を付した長文回答評価を伴う現実の消費者医療質問を特徴とする,新たに公開されたベンチマークを提案する。
論文 参考訳(メタデータ) (2024-11-14T22:54:38Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。