論文の概要: Qualifying Chinese Medical Licensing Examination with Knowledge Enhanced
Generative Pre-training Model
- arxiv url: http://arxiv.org/abs/2305.10163v1
- Date: Wed, 17 May 2023 12:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 16:08:19.452163
- Title: Qualifying Chinese Medical Licensing Examination with Knowledge Enhanced
Generative Pre-training Model
- Title(参考訳): 知識強化型生成前訓練モデルによる中国医学免許試験
- Authors: Jiageng Wu, Xian Wu, Zhaopeng Qiu, Minghui Li, Yefeng Zheng, and Jie
Yang
- Abstract要約: 中国国立医学ライセンス試験(CNMLE)におけるChatGPTの評価
単純だが効果的な検索手法を用いて、医学的背景知識を意味的指示として抽出する。
関連する医学的質問は、ChatGPTのデモンストレーションとして特定され、提供されます。
知識向上モデルでは, CNMLE-2022では, 資格を合格するだけでなく, 人間の平均スコア(61。
- 参考スコア(独自算出の注目度): 45.930512672865774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Pre-Training (GPT) models like ChatGPT have demonstrated
exceptional performance in various Natural Language Processing (NLP) tasks.
Although ChatGPT has been integrated into the overall workflow to boost
efficiency in many domains, the lack of flexibility in the finetuning process
hinders its applications in areas that demand extensive domain expertise and
semantic knowledge, such as healthcare. In this paper, we evaluate ChatGPT on
the China National Medical Licensing Examination (CNMLE) and propose a novel
approach to improve ChatGPT from two perspectives: integrating medical domain
knowledge and enabling few-shot learning. By using a simple but effective
retrieval method, medical background knowledge is extracted as semantic
instructions to guide the inference of ChatGPT. Similarly, relevant medical
questions are identified and fed as demonstrations to ChatGPT. Experimental
results show that directly applying ChatGPT fails to qualify the CNMLE at a
score of 51 (i.e., only 51\% of questions are answered correctly). While our
knowledge-enhanced model achieves a high score of 70 on CNMLE-2022 which not
only passes the qualification but also surpasses the average score of humans
(61). This research demonstrates the potential of knowledge-enhanced ChatGPT to
serve as versatile medical assistants, capable of analyzing real-world medical
problems in a more accessible, user-friendly, and adaptable manner.
- Abstract(参考訳): ChatGPTのような生成前訓練(GPT)モデルは、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。
chatgptは、多くの領域で効率を高めるためにワークフロー全体に統合されているが、微調整プロセスの柔軟性の欠如は、医療のような広範なドメイン専門知識とセマンティック知識を必要とする分野のアプリケーションを妨げる。
本稿では,中国国立医学ライセンス試験(CNMLE)におけるChatGPTの評価を行い,医学領域の知識の統合と少数ショット学習の実現という2つの観点からChatGPTを改善する新しいアプローチを提案する。
シンプルだが効果的な検索手法を用いて、ChatGPTの推論を導く意味的指示として医学的背景知識を抽出する。
同様に、関連する医療質問が特定され、ChatGPTのデモンストレーションとして提供される。
実験の結果、chatgptを直接適用しても、スコア51のcnmleの資格が得られないことが示されている(つまり、質問の51\%しか正しく答えられていない)。
知識向上モデルでは, CNMLE-2022では70点を達成できるが, 資格を合格するだけでなく, 人間の平均スコア(61。
本研究は、よりアクセスしやすく、ユーザフレンドリーで、適応可能な方法で現実世界の医療問題を分析できる、多用途な医療アシスタントとして機能する知識エンハンスドチャットgptの可能性を示す。
関連論文リスト
- CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort [10.66506859118868]
大規模言語モデル (LLMs) は臨床的意思決定支援の分野で非常に進歩している。
本研究の目的は,急性心筋梗塞(MI)の発症リスクを論理的推論で予測できることを定量的に評価することである。
論文 参考訳(メタデータ) (2024-09-22T14:57:31Z) - Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data [3.471944921180245]
非存在腺であるGlianorexに焦点をあてた架空の医療ベンチマークを開発した。
このアプローチにより、LSMの知識をテストテイク能力から切り離すことができます。
我々は、これらの質問をゼロショット設定で、様々なオープンソース、プロプライエタリ、ドメイン固有のLCMを評価した。
論文 参考訳(メタデータ) (2024-06-04T15:08:56Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。
我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文 参考訳(メタデータ) (2023-10-22T02:20:38Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。