論文の概要: Mind the Gap: Evaluating the Representativeness of Quantitative Medical Language Reasoning LLM Benchmarks for African Disease Burdens
- arxiv url: http://arxiv.org/abs/2507.16322v1
- Date: Tue, 22 Jul 2025 08:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.017945
- Title: Mind the Gap: Evaluating the Representativeness of Quantitative Medical Language Reasoning LLM Benchmarks for African Disease Burdens
- Title(参考訳): マインド・ザ・ギャップ(Mind the Gap) : アフリカ病バーデンのLCMベンチマークによる定量的医学的言語分析の適応性の評価
- Authors: Fred Mutisya, Shikoh Gitau, Christine Syovata, Diana Oigara, Ibrahim Matende, Muna Aden, Munira Ali, Ryan Nyotu, Diana Marion, Job Nyangena, Nasubo Ongoma, Keith Mbae, Elizabeth Wamicha, Eric Mibuari, Jean Philbert Nsengemana, Talkmore Chidede,
- Abstract要約: 既存のLCMベンチマークでは、高い所得設定による検査シラビと疾患プロファイルを主に反映している。
Alama Health QAはケニアのクリニカル・クリニカル・プラクティス・ガイドラインに固定された検索拡張生成フレームワークを用いて開発された。
アラマは関連性およびガイドラインアライメントで最高であり、PubMedQAは臨床的有用性で最低であった。
- 参考スコア(独自算出の注目度): 0.609562679184219
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Introduction: Existing medical LLM benchmarks largely reflect examination syllabi and disease profiles from high income settings, raising questions about their validity for African deployment where malaria, HIV, TB, sickle cell disease and other neglected tropical diseases (NTDs) dominate burden and national guidelines drive care. Methodology: We systematically reviewed 31 quantitative LLM evaluation papers (Jan 2019 May 2025) identifying 19 English medical QA benchmarks. Alama Health QA was developed using a retrieval augmented generation framework anchored on the Kenyan Clinical Practice Guidelines. Six widely used sets (AfriMedQA, MMLUMedical, PubMedQA, MedMCQA, MedQAUSMLE, and guideline grounded Alama Health QA) underwent harmonized semantic profiling (NTD proportion, recency, readability, lexical diversity metrics) and blinded expert rating across five dimensions: clinical relevance, guideline alignment, clarity, distractor plausibility, and language/cultural fit. Results: Alama Health QA captured >40% of all NTD mentions across corpora and the highest within set frequencies for malaria (7.7%), HIV (4.1%), and TB (5.2%); AfriMedQA ranked second but lacked formal guideline linkage. Global benchmarks showed minimal representation (e.g., sickle cell disease absent in three sets) despite large scale. Qualitatively, Alama scored highest for relevance and guideline alignment; PubMedQA lowest for clinical utility. Discussion: Quantitative medical LLM benchmarks widely used in the literature underrepresent African disease burdens and regulatory contexts, risking misleading performance claims. Guideline anchored, regionally curated resources such as Alama Health QA and expanded disease specific derivatives are essential for safe, equitable model evaluation and deployment across African health systems.
- Abstract(参考訳): 導入:既存のLCMベンチマークは、検査シラビと疾患プロファイルを高い所得設定から反映しており、マラリア、HIV、TB、病原体病、その他の無視された熱帯病(NTD)が重荷を負担し、国民のガイドラインがケアを推進しているアフリカの展開の妥当性について疑問を呈している。
方法】19の医学的QAベンチマークを同定し,31の量的LCM評価論文(Jan 2019 May 2025)を体系的に検討した。
Alama Health QAはケニアのクリニカル・クリニカル・プラクティス・ガイドラインに固定された検索拡張生成フレームワークを用いて開発された。
AfriMedQA, MMLUMedical, PubMedQA, MedMCQA, MedQAUSMLE, and guideline grounded Alama Health QA)の6つの広く使用されているセットは、調和したセマンティック・プロファイリング(NTD比、相対性、可読性、語彙多様性の指標)と、臨床関連性、ガイドラインのアライメント、明瞭性、散発性、言語/文化適合性(英語版)の5つの次元にわたるブラインド専門家の評価を受けた。
結果: アラマ・ヘルスQAは全NTDの40%以上を占め、マラリア(7.7%)、HIV(4.1%)、TB(5.2%)の発症頻度が最も高い。
グローバルベンチマークでは, 大規模にもかかわらず, 最小限の表現(例: 病原性細胞病が3セットに欠如している)を示した。
定性的には、アラマは関連性およびガイドラインアライメントで最高であり、PubMedQAは臨床的有用性で最低であった。
議論:アフリカ人の病気の重荷と規制の文脈を表わす文献で広く使われている医学的LLMベンチマークは、誤認を招きかねないパフォーマンスクレームのリスクを負う。
アラマ・ヘルスのQAや拡張された疾患特異的誘導体などの地域資源を固定したガイドラインは、安全で公平なモデル評価とアフリカの健康システムへの展開に不可欠である。
関連論文リスト
- Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文 参考訳(メタデータ) (2025-07-31T18:16:10Z) - Retrieval-Augmented Clinical Benchmarking for Contextual Model Testing in Kenyan Primary Care: A Methodology Paper [0.609562679184219]
大規模言語モデル(LLM)は、低リソース環境での医療アクセスを改善するという約束を持っているが、アフリカのプライマリケアにおけるそれらの効果は、まだ探索されていない。
ケニアのレベル2と3の臨床ケアに焦点を当てたベンチマークデータセットと評価フレームワークを作成するための方法論を提案する。
本手法は,ケニアの全国ガイドラインに臨床質問を根拠として,地域標準との整合性を確保するためにRAG (Regegration augmented generation) を用いている。
論文 参考訳(メタデータ) (2025-07-19T13:25:26Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As [1.0034156461900003]
大規模言語モデル(LLM)は言語ベースの臨床実践の多くの側面において有望な結果を示す。
包括的医療知識グラフ(50,00以上の査読済み記事から得られたデータ)を用いて「EBMQA」を作成しました。
私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusについて24,500以上の質問を使ってベンチマークした。
いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T08:41:46Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。