論文の概要: KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean
Healthcare Professional Licensing Examinations
- arxiv url: http://arxiv.org/abs/2403.01469v2
- Date: Tue, 5 Mar 2024 09:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:16:18.257299
- Title: KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean
Healthcare Professional Licensing Examinations
- Title(参考訳): KorMedMCQA:韓国の医療専門家資格試験のための多項目質問回答ベンチマーク
- Authors: Sunjun Kweon, Byungjin Choi, Minkyu Kim, Rae Woong Park, Edward Choi
- Abstract要約: KorMedMCQAは,韓国の医療専門家の認定試験から得られた,韓国初のマルチチョイス質問応答(MCQA)ベンチマークである。
このデータセットは、医師、看護師、薬剤師の免許試験から選択された質問から成り、多様な被験者を特徴とする。
我々は,プロプライエタリ/オープンソース,マルチリンガル/韓国付加事前訓練,臨床コンテキスト事前訓練モデルなど,さまざまな大規模言語モデルのベースライン実験を実施している。
- 参考スコア(独自算出の注目度): 10.465148170843346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce KorMedMCQA, the first Korean multiple-choice question answering
(MCQA) benchmark derived from Korean healthcare professional licensing
examinations, covering from the year 2012 to year 2023. This dataset consists
of a selection of questions from the license examinations for doctors, nurses,
and pharmacists, featuring a diverse array of subjects. We conduct baseline
experiments on various large language models, including
proprietary/open-source, multilingual/Korean-additional pretrained, and
clinical context pretrained models, highlighting the potential for further
enhancements. We make our data publicly available on HuggingFace
(https://huggingface.co/datasets/sean0042/KorMedMCQA) and provide a evaluation
script via LM-Harness, inviting further exploration and advancement in Korean
healthcare environments.
- Abstract(参考訳): KorMedMCQAは,韓国の医療専門家による2012年から2023年までの認定試験から得られた,韓国初のマルチチョイス質問応答(MCQA)ベンチマークである。
このデータセットは、医師、看護師、薬剤師の免許試験から選択された質問から成り、様々な主題を扱っている。
我々は,プロプライエタリ/オープンソース,マルチリンガル/韓国付加事前訓練モデル,臨床コンテキスト事前訓練モデルなど,さまざまな大規模言語モデルのベースライン実験を行い,さらなる拡張の可能性を強調した。
我々はHuggingFace(https://huggingface.co/datasets/sean0042/KorMedMCQA)でデータを公開し、LM-Harnessを通じて評価スクリプトを提供し、韓国の医療環境におけるさらなる探索と進展を招いている。
関連論文リスト
- Polish Medical Exams: A new dataset for cross-lingual medical knowledge transfer assessment [0.865489625605814]
本研究では,ポーランドの医療ライセンシングと専門化試験に基づく新しいベンチマークデータセットを提案する。
ポーランド語と英語のパラレルコーパスのサブセットを含む24,000以上の試験質問を含んでいる。
汎用・ドメイン特化・ポーランド特化モデルを含む最先端のLCMを評価し,その性能を人間医学生と比較した。
論文 参考訳(メタデータ) (2024-11-30T19:02:34Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - MedConceptsQA: Open Source Medical Concepts QA Benchmark [0.07083082555458872]
MedConceptsQAは、医療概念質問応答のための専用のオープンソースベンチマークである。
このベンチマークは、診断、手順、薬物など、さまざまな語彙の様々な医学概念に関する質問で構成されている。
各種大規模言語モデルを用いて評価を行った。
論文 参考訳(メタデータ) (2024-05-12T17:54:50Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [90.3257333861513]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Towards Expert-Level Medical Question Answering with Large Language
Models [16.882775912583355]
大規模言語モデル (LLMs) は医学的質問応答において大きな進歩をもたらした。
ここでは、基礎改善(PaLM2)、医療領域の細かな改善、戦略の推進を組み合わせ、ギャップを埋めるMedPaLM 2を提案する。
また, MedMC-ofQA, PubMed, MMLUの臨床トピックスデータセットに近づいたり, 最先端に近づいたりした。
論文 参考訳(メタデータ) (2023-05-16T17:11:29Z) - GPT-4 can pass the Korean National Licensing Examination for Korean
Medicine Doctors [9.374652839580182]
本研究は,韓国伝統医学(TKM)におけるGPT-4の能力について検討した。
我々は,中国語の長期的アノテーション,質問と指導のための英語翻訳,試験最適化指導,自己整合性でプロンプトを最適化した。
最適化されたプロンプトを持つGPT-4は66.18%の精度を達成し、各被験者の平均パスマークは60%、最低40%を超えた。
論文 参考訳(メタデータ) (2023-03-31T05:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。