論文の概要: KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations
- arxiv url: http://arxiv.org/abs/2403.01469v3
- Date: Mon, 09 Dec 2024 06:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:49:52.666669
- Title: KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations
- Title(参考訳): KorMedMCQA:韓国の医療専門家資格試験のための多項目質問回答ベンチマーク
- Authors: Sunjun Kweon, Byungjin Choi, Gyouk Chu, Junyeong Song, Daeun Hyeon, Sujin Gan, Jueon Kim, Minkyu Kim, Rae Woong Park, Edward Choi,
- Abstract要約: KorMedMCQAは韓国初の医療用多項目質問回答ベンチマークである。
このデータセットには、医師、看護師、薬剤師、歯科医の診察から7,469の質問が含まれている。
- 参考スコア(独自算出の注目度): 7.8387874506025215
- License:
- Abstract: We present KorMedMCQA, the first Korean Medical Multiple-Choice Question Answering benchmark, derived from professional healthcare licensing examinations conducted in Korea between 2012 and 2024. The dataset contains 7,469 questions from examinations for doctor, nurse, pharmacist, and dentist, covering a wide range of medical disciplines. We evaluate the performance of 59 large language models, spanning proprietary and open-source models, multilingual and Korean-specialized models, and those fine-tuned for clinical applications. Our results show that applying Chain of Thought (CoT) reasoning can enhance the model performance by up to 4.5% compared to direct answering approaches. We also investigate whether MedQA, one of the most widely used medical benchmarks derived from the U.S. Medical Licensing Examination, can serve as a reliable proxy for evaluating model performance in other regions-in this case, Korea. Our correlation analysis between model scores on KorMedMCQA and MedQA reveals that these two benchmarks align no better than benchmarks from entirely different domains (e.g., MedQA and MMLU-Pro). This finding underscores the substantial linguistic and clinical differences between Korean and U.S. medical contexts, reinforcing the need for region-specific medical QA benchmarks. To support ongoing research in Korean healthcare AI, we publicly release the KorMedMCQA via Huggingface.
- Abstract(参考訳): KorMedMCQAは,2012年から2024年にかけて韓国で実施された専門的医療ライセンス試験を参考に,韓国で初めての医療多重質問応答ベンチマークである。
このデータセットには、医師、看護師、薬剤師、歯科医の診察から7,469の質問が含まれており、幅広い医学分野をカバーする。
59大言語モデルの性能評価を行い, プロプライエタリモデル, オープンソースモデル, 多言語モデル, 韓国特化モデル, 臨床応用モデルについて検討した。
この結果から, 思考の連鎖(CoT)推論を適用することで, 直接解答手法と比較して, モデル性能を最大4.5%向上させることができることがわかった。
また、米国医学ライセンス試験から派生した最も広く使用されている医療ベンチマークの一つであるMedQAが、他の地域でのモデル性能を評価するための信頼性の高いプロキシとして機能するかどうかについても検討する。
KorMedMCQAとMedQAのモデルスコア間の相関分析により、これらのベンチマークは、完全に異なるドメイン(例えば、MedQAとMMLU-Pro)のベンチマークと同等ではないことが明らかになった。
この発見は、韓国と米国の医療状況の言語学的および臨床的差異を著しく強調し、地域固有の医療QAベンチマークの必要性を高めている。
韓国の医療AIの継続的な研究を支援するため、Huggingfaceを通じてKorMedMCQAを公開しています。
関連論文リスト
- Polish Medical Exams: A new dataset for cross-lingual medical knowledge transfer assessment [0.865489625605814]
本研究では,ポーランドの医療ライセンシングと専門化試験に基づく新しいベンチマークデータセットを提案する。
ポーランド語と英語のパラレルコーパスのサブセットを含む24,000以上の試験質問を含んでいる。
汎用・ドメイン特化・ポーランド特化モデルを含む最先端のLCMを評価し,その性能を人間医学生と比較した。
論文 参考訳(メタデータ) (2024-11-30T19:02:34Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - MedConceptsQA: Open Source Medical Concepts QA Benchmark [0.07083082555458872]
MedConceptsQAは、医療概念質問応答のための専用のオープンソースベンチマークである。
このベンチマークは、診断、手順、薬物など、さまざまな語彙の様々な医学概念に関する質問で構成されている。
各種大規模言語モデルを用いて評価を行った。
論文 参考訳(メタデータ) (2024-05-12T17:54:50Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [90.3257333861513]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Towards Expert-Level Medical Question Answering with Large Language
Models [16.882775912583355]
大規模言語モデル (LLMs) は医学的質問応答において大きな進歩をもたらした。
ここでは、基礎改善(PaLM2)、医療領域の細かな改善、戦略の推進を組み合わせ、ギャップを埋めるMedPaLM 2を提案する。
また, MedMC-ofQA, PubMed, MMLUの臨床トピックスデータセットに近づいたり, 最先端に近づいたりした。
論文 参考訳(メタデータ) (2023-05-16T17:11:29Z) - GPT-4 can pass the Korean National Licensing Examination for Korean
Medicine Doctors [9.374652839580182]
本研究は,韓国伝統医学(TKM)におけるGPT-4の能力について検討した。
我々は,中国語の長期的アノテーション,質問と指導のための英語翻訳,試験最適化指導,自己整合性でプロンプトを最適化した。
最適化されたプロンプトを持つGPT-4は66.18%の精度を達成し、各被験者の平均パスマークは60%、最低40%を超えた。
論文 参考訳(メタデータ) (2023-03-31T05:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。