論文の概要: KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations
- arxiv url: http://arxiv.org/abs/2403.01469v3
- Date: Mon, 09 Dec 2024 06:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:49:52.666669
- Title: KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations
- Title(参考訳): KorMedMCQA:韓国の医療専門家資格試験のための多項目質問回答ベンチマーク
- Authors: Sunjun Kweon, Byungjin Choi, Gyouk Chu, Junyeong Song, Daeun Hyeon, Sujin Gan, Jueon Kim, Minkyu Kim, Rae Woong Park, Edward Choi,
- Abstract要約: KorMedMCQAは韓国初の医療用多項目質問回答ベンチマークである。
このデータセットには、医師、看護師、薬剤師、歯科医の診察から7,469の質問が含まれている。
- 参考スコア(独自算出の注目度): 7.8387874506025215
- License:
- Abstract: We present KorMedMCQA, the first Korean Medical Multiple-Choice Question Answering benchmark, derived from professional healthcare licensing examinations conducted in Korea between 2012 and 2024. The dataset contains 7,469 questions from examinations for doctor, nurse, pharmacist, and dentist, covering a wide range of medical disciplines. We evaluate the performance of 59 large language models, spanning proprietary and open-source models, multilingual and Korean-specialized models, and those fine-tuned for clinical applications. Our results show that applying Chain of Thought (CoT) reasoning can enhance the model performance by up to 4.5% compared to direct answering approaches. We also investigate whether MedQA, one of the most widely used medical benchmarks derived from the U.S. Medical Licensing Examination, can serve as a reliable proxy for evaluating model performance in other regions-in this case, Korea. Our correlation analysis between model scores on KorMedMCQA and MedQA reveals that these two benchmarks align no better than benchmarks from entirely different domains (e.g., MedQA and MMLU-Pro). This finding underscores the substantial linguistic and clinical differences between Korean and U.S. medical contexts, reinforcing the need for region-specific medical QA benchmarks. To support ongoing research in Korean healthcare AI, we publicly release the KorMedMCQA via Huggingface.
- Abstract(参考訳): KorMedMCQAは,2012年から2024年にかけて韓国で実施された専門的医療ライセンス試験を参考に,韓国で初めての医療多重質問応答ベンチマークである。
このデータセットには、医師、看護師、薬剤師、歯科医の診察から7,469の質問が含まれており、幅広い医学分野をカバーする。
59大言語モデルの性能評価を行い, プロプライエタリモデル, オープンソースモデル, 多言語モデル, 韓国特化モデル, 臨床応用モデルについて検討した。
この結果から, 思考の連鎖(CoT)推論を適用することで, 直接解答手法と比較して, モデル性能を最大4.5%向上させることができることがわかった。
また、米国医学ライセンス試験から派生した最も広く使用されている医療ベンチマークの一つであるMedQAが、他の地域でのモデル性能を評価するための信頼性の高いプロキシとして機能するかどうかについても検討する。
KorMedMCQAとMedQAのモデルスコア間の相関分析により、これらのベンチマークは、完全に異なるドメイン(例えば、MedQAとMMLU-Pro)のベンチマークと同等ではないことが明らかになった。
この発見は、韓国と米国の医療状況の言語学的および臨床的差異を著しく強調し、地域固有の医療QAベンチマークの必要性を高めている。
韓国の医療AIの継続的な研究を支援するため、Huggingfaceを通じてKorMedMCQAを公開しています。
関連論文リスト
- AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset [8.521691388707799]
AfriMed-QAはPan-African English multi-choice Medical Question-Answering データセットである。
15,000の質問が16カ国の60以上の医療学校から寄せられ、32の医療専門学校から寄せられた。
バイオメディカル LLM は一般的なモデルよりも優れており、エッジフレンドリーな LLM はパススコアの達成に苦慮している。
論文 参考訳(メタデータ) (2024-11-23T19:43:02Z) - A Benchmark for Long-Form Medical Question Answering [4.815957808858573]
長期医療質問応答(QA)における大規模言語モデル(LLM)の評価のためのベンチマークの欠如
既存のQA評価ベンチマークのほとんどは、自動メトリクスと複数項目の質問に焦点を当てている。
本研究は,医科医が注釈を付した長文回答評価を伴う現実の消費者医療質問を特徴とする,新たに公開されたベンチマークを提案する。
論文 参考訳(メタデータ) (2024-11-14T22:54:38Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - MediFact at MEDIQA-M3G 2024: Medical Question Answering in Dermatology with Multimodal Learning [0.0]
本稿では,オープンエンド医療質問応答(QA)のための弱教師付き学習アプローチを提案することによって,従来の手法の限界に対処する。
本システムは,VGG16-CNN-SVMモデルを用いて,利用可能なMEDIQA-M3G画像を利用する。
この研究は、医療QA研究を前進させ、臨床意思決定支援システムへの道を切り開き、最終的に医療提供を改善する。
論文 参考訳(メタデータ) (2024-04-27T20:03:47Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [94.85518237963535]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。