論文の概要: AMQA: An Adversarial Dataset for Benchmarking Bias of LLMs in Medicine and Healthcare
- arxiv url: http://arxiv.org/abs/2505.19562v1
- Date: Mon, 26 May 2025 06:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.210158
- Title: AMQA: An Adversarial Dataset for Benchmarking Bias of LLMs in Medicine and Healthcare
- Title(参考訳): AMQA:医学・医療分野におけるLCMのベンチマークビースのための逆データセット
- Authors: Ying Xiao, Jie Huang, Ruijuan He, Jing Xiao, Mohammad Reza Mousavi, Yepang Liu, Kezhi Li, Zhenpeng Chen, Jie M. Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、医学的診断問題において専門家レベルの精度に達している。
しかし、彼らの過ちと背後にある偏見は、命にかかわるリスクを引き起こす。
本稿では,AMQA(Adversarial Medical Question-Answering dataset)を提案する。
- 参考スコア(独自算出の注目度): 26.165474297359843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are reaching expert-level accuracy on medical diagnosis questions, yet their mistakes and the biases behind them pose life-critical risks. Bias linked to race, sex, and socioeconomic status is already well known, but a consistent and automatic testbed for measuring it is missing. To fill this gap, this paper presents AMQA -- an Adversarial Medical Question-Answering dataset -- built for automated, large-scale bias evaluation of LLMs in medical QA. AMQA includes 4,806 medical QA pairs sourced from the United States Medical Licensing Examination (USMLE) dataset, generated using a multi-agent framework to create diverse adversarial descriptions and question pairs. Using AMQA, we benchmark five representative LLMs and find surprisingly substantial disparities: even GPT-4.1, the least biased model tested, answers privileged-group questions over 10 percentage points more accurately than unprivileged ones. Compared with the existing benchmark CPV, AMQA reveals 15% larger accuracy gaps on average between privileged and unprivileged groups. Our dataset and code are publicly available at https://github.com/XY-Showing/AMQA to support reproducible research and advance trustworthy, bias-aware medical AI.
- Abstract(参考訳): 大きな言語モデル(LLM)は、医学的診断問題に関して専門家レベルの精度に達しているが、その誤りと背景にあるバイアスは生命に危機をもたらす。
人種、性別、社会経済的地位に関連するバイアスは、既によく知られているが、それを測定するための一貫した自動テストベッドが欠落している。
このギャップを埋めるために、医療QAにおけるLSMの自動的大規模バイアス評価のためのAMQA(Adversarial Medical Question-Answering dataset)を提案する。
AMQAには、米国医学ライセンス試験(USMLE)データセットから得られた4,806の医療QAペアが含まれている。
AMQAを用いて、5つの代表的なLCMをベンチマークし、驚くほど大きな相違点を見出した: GPT-4.1 でさえ、最もバイアスの少ないモデルでさえ、特権群に対する質問は、特権のないものよりも10パーセント以上正確に答えている。
既存のベンチマークCPVと比較して、AMQAは特権グループと特権グループの間の平均的な精度のギャップを15%大きくしている。
私たちのデータセットとコードはhttps://github.com/XY-Showing/AMQAで公開されています。
関連論文リスト
- MedCFVQA: A Causal Approach to Mitigate Modality Preference Bias in Medical Visual Question Answering [13.506155313741493]
既存のMedVQAモデルはモダリティ優先バイアスに悩まされ、予測は一方のモダリティに大きく支配され、他方を見下ろしている。
本稿では, 因果グラフを応用し, 推論時のモダリティ優先バイアスを除去する医療対実VQA(MedCFVQA)モデルを提案する。
我々は,MedCFVQAがSLAKE,RadVQA,SLAKE-CP,RadVQA-CPの両データセットにおいて,非因果関係を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-22T04:21:05Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework [2.9599960287815144]
大規模言語モデル(LLM)は、医療質問応答(QA)のシナリオでますます採用されている。
LLMは幻覚や非現実的な情報を生成でき、高い医療業務における信頼性を損なう。
本稿では,医療用マルチ選択質問応答タスクのための拡張型コンフォーマル予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T15:22:10Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - A Benchmark for Long-Form Medical Question Answering [4.815957808858573]
長期医療質問応答(QA)における大規模言語モデル(LLM)の評価のためのベンチマークの欠如
既存のQA評価ベンチマークのほとんどは、自動メトリクスと複数項目の質問に焦点を当てている。
本研究は,医科医が注釈を付した長文回答評価を伴う現実の消費者医療質問を特徴とする,新たに公開されたベンチマークを提案する。
論文 参考訳(メタデータ) (2024-11-14T22:54:38Z) - RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions [3.182594503527438]
本稿では,人間とLLMが生み出す現実的な臨床質問のデータセットであるRealMedQAを紹介する。
LLMは「理想的な」QAペアを生成するのに、よりコスト効率が高いことを示す。
論文 参考訳(メタデータ) (2024-08-16T09:32:43Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。