論文の概要: KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean
Healthcare Professional Licensing Examinations
- arxiv url: http://arxiv.org/abs/2403.01469v2
- Date: Tue, 5 Mar 2024 09:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:16:18.257299
- Title: KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean
Healthcare Professional Licensing Examinations
- Title(参考訳): KorMedMCQA:韓国の医療専門家資格試験のための多項目質問回答ベンチマーク
- Authors: Sunjun Kweon, Byungjin Choi, Minkyu Kim, Rae Woong Park, Edward Choi
- Abstract要約: KorMedMCQAは,韓国の医療専門家の認定試験から得られた,韓国初のマルチチョイス質問応答(MCQA)ベンチマークである。
このデータセットは、医師、看護師、薬剤師の免許試験から選択された質問から成り、多様な被験者を特徴とする。
我々は,プロプライエタリ/オープンソース,マルチリンガル/韓国付加事前訓練,臨床コンテキスト事前訓練モデルなど,さまざまな大規模言語モデルのベースライン実験を実施している。
- 参考スコア(独自算出の注目度): 10.465148170843346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce KorMedMCQA, the first Korean multiple-choice question answering
(MCQA) benchmark derived from Korean healthcare professional licensing
examinations, covering from the year 2012 to year 2023. This dataset consists
of a selection of questions from the license examinations for doctors, nurses,
and pharmacists, featuring a diverse array of subjects. We conduct baseline
experiments on various large language models, including
proprietary/open-source, multilingual/Korean-additional pretrained, and
clinical context pretrained models, highlighting the potential for further
enhancements. We make our data publicly available on HuggingFace
(https://huggingface.co/datasets/sean0042/KorMedMCQA) and provide a evaluation
script via LM-Harness, inviting further exploration and advancement in Korean
healthcare environments.
- Abstract(参考訳): KorMedMCQAは,韓国の医療専門家による2012年から2023年までの認定試験から得られた,韓国初のマルチチョイス質問応答(MCQA)ベンチマークである。
このデータセットは、医師、看護師、薬剤師の免許試験から選択された質問から成り、様々な主題を扱っている。
我々は,プロプライエタリ/オープンソース,マルチリンガル/韓国付加事前訓練モデル,臨床コンテキスト事前訓練モデルなど,さまざまな大規模言語モデルのベースライン実験を行い,さらなる拡張の可能性を強調した。
我々はHuggingFace(https://huggingface.co/datasets/sean0042/KorMedMCQA)でデータを公開し、LM-Harnessを通じて評価スクリプトを提供し、韓国の医療環境におけるさらなる探索と進展を招いている。
関連論文リスト
- Large Language Models for Multi-Choice Question Classification of Medical Subjects [0.2020207586732771]
我々は, 深層ニューラルネットワークを用いて, 被ばく被ばく被ばく者への質問の分類を行う。
医療分野におけるマルチクラス化タスクにおいて,AI と LLM の能力について述べる。
論文 参考訳(メタデータ) (2024-03-21T17:36:08Z) - Benchmarking Large Language Models on Answering and Explaining
Challenging Medical Questions [21.23352614758691]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。
JAMA 臨床チャレンジは、挑戦的な臨床ケースに基づく質問から成り、Medbullets は USMLE Step 2&3 スタイルの臨床質問から成り立っている。
各種のプロンプトを用いて2つのデータセット上で4つのLSMを評価する。
論文 参考訳(メタデータ) (2024-02-28T05:44:41Z) - EHRNoteQA: A Patient-Specific Question Answering Benchmark for
Evaluating Large Language Models in Clinical Settings [9.77441122987873]
本研究では,臨床環境におけるLarge Language Models (LLMs) の評価に適した,患者固有の質問応答ベンチマークであるEHRNoteQAを紹介する。
MIMIC-IV Electronic Health Record (EHR)に基づいて、3人の医療専門家からなるチームが、962のユニークな質問からなるデータセットをキュレートした。
このデータセットは、PhyloNetクレデンシャルアクセスの下で一般公開され、この重要な分野におけるさらなる研究が促進される。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - Towards Building Multilingual Language Model for Medicine [56.469984729667345]
我々は、様々な地域から広く、言語的に多様な聴衆に利益をもたらす、医療のためのオープンソースの多言語言語モデルを開発することを目指している。
MMedCと呼ばれる6つの主要言語を含む約25.5Bトークンを含む多言語医療用コーパスを構築した。
本稿では,MMedBenchと呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
コード、モデルの重み付け、データセットを含むリソースを公開します。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [94.85518237963535]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - MedMCQA : A Large-scale Multi-Subject Multi-Choice Dataset for Medical
domain Question Answering [0.0]
AIIMS と NEET PG のハイクオリティ試験 MCQ は 2.4k の医療トピックを対象とし,21 名の医療被験者を対象とする。
各サンプルには、より深い言語理解を必要とする質問、正しい回答、その他のオプションが含まれている。
論文 参考訳(メタデータ) (2022-03-27T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。