論文の概要: PeruMedQA: Benchmarking Large Language Models (LLMs) on Peruvian Medical Exams -- Dataset Construction and Evaluation
- arxiv url: http://arxiv.org/abs/2509.11517v1
- Date: Mon, 15 Sep 2025 02:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.122633
- Title: PeruMedQA: Benchmarking Large Language Models (LLMs) on Peruvian Medical Exams -- Dataset Construction and Evaluation
- Title(参考訳): PeruMedQA: ペルーの医療機関における大規模言語モデル(LLM)のベンチマーク - データセットの構築と評価
- Authors: Rodrigo M. Carrillo-Larco, Jesus Lovón Melgarejo, Manuel Castillo-Cara, Gusseppe Bravo-Rocca,
- Abstract要約: AIMS: 専門的な訓練を追求するペルーの医師が取得した医学検査から質問のデータセットを構築する。
12の医療領域にまたがる8,380の質問を含む多票質問回答データセットであるPulchuMedQAをキュレートした。
Medgemma-27b-text-it は他の全てのモデルよりも優れており、いくつかの例では90%を超える正解率を達成した。
- 参考スコア(独自算出の注目度): 0.6899744489931012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BACKGROUND: Medical large language models (LLMS) have demonstrated remarkable performance in answering medical examinations. However, the extent to which this high performance is transferable to medical questions in Spanish and from a Latin American country remains unexplored. This knowledge is crucial as LLM-based medical applications gain traction in Latin America. AIMS: to build a dataset of questions from medical examinations taken by Peruvian physicians pursuing specialty training; to fine-tune a LLM on this dataset; to evaluate and compare the performance in terms of accuracy between vanilla LLMs and the fine-tuned LLM. METHODS: We curated PeruMedQA, a multiple-choice question-answering (MCQA) datasets containing 8,380 questions spanning 12 medical domains (2018-2025). We selected eight medical LLMs including medgemma-4b-it and medgemma-27b-text-it, and developed zero-shot task-specific prompts to answer the questions appropriately. We employed parameter-efficient fine tuning (PEFT)and low-rant adaptation (LoRA) to fine-tune medgemma-4b-it utilizing all questions except those from 2025 (test set). RESULTS: medgemma-27b-text-it outperformed all other models, achieving a proportion of correct answers exceeding 90% in several instances. LLMs with <10 billion parameters exhibited <60% of correct answers, while some exams yielded results <50%. The fine-tuned version of medgemma-4b-it emerged victorious agains all LLMs with <10 billion parameters and rivaled a LLM with 70 billion parameters across various examinations. CONCLUSIONS: For medical AI application and research that require knowledge bases from Spanish-speaking countries and those exhibiting similar epidemiological profiles to Peru's, interested parties should utilize medgemma-27b-text-it or a fine-tuned version of medgemma-4b-it.
- Abstract(参考訳): BACKGROUND: 医学大言語モデル(LLMS)は, 医学的検査に答える上で, 顕著な性能を示した。
しかし、このハイパフォーマンスがスペイン語やラテンアメリカの国から医学的な問題に移行できる範囲は未解明のままである。
LLMベースの医療応用がラテンアメリカで勢いを増すにつれ、この知識は不可欠である。
AIMS: 専門訓練を追求するペルーの医師が取得した医学検査のデータセットを構築し、このデータセット上でLSMを微調整し、バニラLSMと微調整LDMの精度で性能を評価し比較する。
方法】12の医療領域(2018-2025)にまたがる8,380の質問を含むMCQAデータセットであるPerulMedQAをキュレートした。
我々は,medgemma-4b-itとmedgemma-27b-text-itを含む8つの医療用LCMを選択し,ゼロショットタスク特異的なプロンプトを作成した。
2025(テストセット)を除く全ての質問に対して,パラメータ効率のよい微調整(PEFT)と低域適応(LoRA)を適用した。
結果: medgemma-27b-text-it は他の全てのモデルよりも優れており、いくつかのケースで90%を超える正解率を達成した。
LLMは100億のパラメータで60%の正解を示したが、一部の試験では50%の正解を示した。
medgemma-4b-itの微調整版は、100億のパラメータを持つ全てのLLMに再び勝利し、様々な試験で700億のパラメータを持つLLMと競合した。
CONCLUSIONS: スペイン語圏諸国の知識ベースとペルーと類似の疫学的プロファイルを必要とする医療AIアプリケーションと研究のためには、関心のある当事者はmedgemma-27b-text-itまたはmedgemma-4b-itの微調整版を利用するべきである。
関連論文リスト
- AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset [8.521691388707799]
AfriMed-QAはPan-African English multi-choice Medical Question-Answering データセットである。
15,000の質問が16カ国の60以上の医療学校から寄せられ、32の医療専門学校から寄せられた。
バイオメディカル LLM は一般的なモデルよりも優れており、エッジフレンドリーな LLM はパススコアの達成に苦慮している。
論文 参考訳(メタデータ) (2024-11-23T19:43:02Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Towards Expert-Level Medical Question Answering with Large Language
Models [16.882775912583355]
大規模言語モデル (LLMs) は医学的質問応答において大きな進歩をもたらした。
ここでは、基礎改善(PaLM2)、医療領域の細かな改善、戦略の推進を組み合わせ、ギャップを埋めるMedPaLM 2を提案する。
また, MedMC-ofQA, PubMed, MMLUの臨床トピックスデータセットに近づいたり, 最先端に近づいたりした。
論文 参考訳(メタデータ) (2023-05-16T17:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。