論文の概要: KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean
Healthcare Professional Licensing Examinations
- arxiv url: http://arxiv.org/abs/2403.01469v2
- Date: Tue, 5 Mar 2024 09:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:16:18.257299
- Title: KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean
Healthcare Professional Licensing Examinations
- Title(参考訳): KorMedMCQA:韓国の医療専門家資格試験のための多項目質問回答ベンチマーク
- Authors: Sunjun Kweon, Byungjin Choi, Minkyu Kim, Rae Woong Park, Edward Choi
- Abstract要約: KorMedMCQAは,韓国の医療専門家の認定試験から得られた,韓国初のマルチチョイス質問応答(MCQA)ベンチマークである。
このデータセットは、医師、看護師、薬剤師の免許試験から選択された質問から成り、多様な被験者を特徴とする。
我々は,プロプライエタリ/オープンソース,マルチリンガル/韓国付加事前訓練,臨床コンテキスト事前訓練モデルなど,さまざまな大規模言語モデルのベースライン実験を実施している。
- 参考スコア(独自算出の注目度): 10.465148170843346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce KorMedMCQA, the first Korean multiple-choice question answering
(MCQA) benchmark derived from Korean healthcare professional licensing
examinations, covering from the year 2012 to year 2023. This dataset consists
of a selection of questions from the license examinations for doctors, nurses,
and pharmacists, featuring a diverse array of subjects. We conduct baseline
experiments on various large language models, including
proprietary/open-source, multilingual/Korean-additional pretrained, and
clinical context pretrained models, highlighting the potential for further
enhancements. We make our data publicly available on HuggingFace
(https://huggingface.co/datasets/sean0042/KorMedMCQA) and provide a evaluation
script via LM-Harness, inviting further exploration and advancement in Korean
healthcare environments.
- Abstract(参考訳): KorMedMCQAは,韓国の医療専門家による2012年から2023年までの認定試験から得られた,韓国初のマルチチョイス質問応答(MCQA)ベンチマークである。
このデータセットは、医師、看護師、薬剤師の免許試験から選択された質問から成り、様々な主題を扱っている。
我々は,プロプライエタリ/オープンソース,マルチリンガル/韓国付加事前訓練モデル,臨床コンテキスト事前訓練モデルなど,さまざまな大規模言語モデルのベースライン実験を行い,さらなる拡張の可能性を強調した。
我々はHuggingFace(https://huggingface.co/datasets/sean0042/KorMedMCQA)でデータを公開し、LM-Harnessを通じて評価スクリプトを提供し、韓国の医療環境におけるさらなる探索と進展を招いている。
関連論文リスト
- AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset [8.521691388707799]
AfriMed-QAはPan-African English multi-choice Medical Question-Answering データセットである。
15,000の質問が16カ国の60以上の医療学校から寄せられ、32の医療専門学校から寄せられた。
バイオメディカル LLM は一般的なモデルよりも優れており、エッジフレンドリーな LLM はパススコアの達成に苦慮している。
論文 参考訳(メタデータ) (2024-11-23T19:43:02Z) - A Benchmark for Long-Form Medical Question Answering [4.815957808858573]
長期医療質問応答(QA)における大規模言語モデル(LLM)の評価のためのベンチマークの欠如
既存のQA評価ベンチマークのほとんどは、自動メトリクスと複数項目の質問に焦点を当てている。
本研究は,医科医が注釈を付した長文回答評価を伴う現実の消費者医療質問を特徴とする,新たに公開されたベンチマークを提案する。
論文 参考訳(メタデータ) (2024-11-14T22:54:38Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - MediFact at MEDIQA-M3G 2024: Medical Question Answering in Dermatology with Multimodal Learning [0.0]
本稿では,オープンエンド医療質問応答(QA)のための弱教師付き学習アプローチを提案することによって,従来の手法の限界に対処する。
本システムは,VGG16-CNN-SVMモデルを用いて,利用可能なMEDIQA-M3G画像を利用する。
この研究は、医療QA研究を前進させ、臨床意思決定支援システムへの道を切り開き、最終的に医療提供を改善する。
論文 参考訳(メタデータ) (2024-04-27T20:03:47Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [94.85518237963535]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。