論文の概要: Qualifying Chinese Medical Licensing Examination with Knowledge Enhanced
Generative Pre-training Model
- arxiv url: http://arxiv.org/abs/2305.10163v2
- Date: Sun, 22 Oct 2023 17:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 12:24:29.216961
- Title: Qualifying Chinese Medical Licensing Examination with Knowledge Enhanced
Generative Pre-training Model
- Title(参考訳): 知識強化型生成前訓練モデルによる中国医学免許試験
- Authors: Jiageng Wu, Xian Wu, Zhaopeng Qiu, Minghui Li, Yefeng Zheng, and Jie
Yang
- Abstract要約: 中国国立医学ライセンス試験(CNMLE)におけるChatGPTの評価
単純だが効果的な検索手法を用いて、医学的背景知識を意味的指示として抽出する。
関連する医学的質問は、ChatGPTのデモンストレーションとして特定され、提供されます。
知識向上モデルでは, CNMLE-2022では, 資格を合格するだけでなく, 人間の平均スコア(61。
- 参考スコア(独自算出の注目度): 43.99737951314156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Pre-Training (GPT) models like ChatGPT have demonstrated
exceptional performance in various Natural Language Processing (NLP) tasks.
Although ChatGPT has been integrated into the overall workflow to boost
efficiency in many domains, the lack of flexibility in the finetuning process
hinders its applications in areas that demand extensive domain expertise and
semantic knowledge, such as healthcare. In this paper, we evaluate ChatGPT on
the China National Medical Licensing Examination (CNMLE) and propose a novel
approach to improve ChatGPT from two perspectives: integrating medical domain
knowledge and enabling few-shot learning. By using a simple but effective
retrieval method, medical background knowledge is extracted as semantic
instructions to guide the inference of ChatGPT. Similarly, relevant medical
questions are identified and fed as demonstrations to ChatGPT. Experimental
results show that directly applying ChatGPT fails to qualify the CNMLE at a
score of 51 (i.e., only 51\% of questions are answered correctly). While our
knowledge-enhanced model achieves a high score of 70 on CNMLE-2022 which not
only passes the qualification but also surpasses the average score of humans
(61). This research demonstrates the potential of knowledge-enhanced ChatGPT to
serve as versatile medical assistants, capable of analyzing real-world medical
problems in a more accessible, user-friendly, and adaptable manner.
- Abstract(参考訳): ChatGPTのような生成前訓練(GPT)モデルは、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。
chatgptは、多くの領域で効率を高めるためにワークフロー全体に統合されているが、微調整プロセスの柔軟性の欠如は、医療のような広範なドメイン専門知識とセマンティック知識を必要とする分野のアプリケーションを妨げる。
本稿では,中国国立医学ライセンス試験(CNMLE)におけるChatGPTの評価を行い,医学領域の知識の統合と少数ショット学習の実現という2つの観点からChatGPTを改善する新しいアプローチを提案する。
シンプルだが効果的な検索手法を用いて、ChatGPTの推論を導く意味的指示として医学的背景知識を抽出する。
同様に、関連する医療質問が特定され、ChatGPTのデモンストレーションとして提供される。
実験の結果、chatgptを直接適用しても、スコア51のcnmleの資格が得られないことが示されている(つまり、質問の51\%しか正しく答えられていない)。
知識向上モデルでは, CNMLE-2022では70点を達成できるが, 資格を合格するだけでなく, 人間の平均スコア(61。
本研究は、よりアクセスしやすく、ユーザフレンドリーで、適応可能な方法で現実世界の医療問題を分析できる、多用途な医療アシスタントとして機能する知識エンハンスドチャットgptの可能性を示す。
関連論文リスト
- MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering [8.110978727364397]
大規模言語モデル(LLM)は、人工知能技術の発展を促進する可能性を秘めている。
本稿では,MedExpQAについて述べる。MedExpQAは,医学質問応答におけるLSMを評価するための,医学試験に基づく最初の多言語ベンチマークである。
論文 参考訳(メタデータ) (2024-04-08T15:03:57Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training
Regime and Better Alignment to Human Preferences [55.42521181558716]
中国医学領域向けに設計された新しいベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、コンテキスト長を4,096トークンに拡大し、事前トレーニング、SFT、RLHFを含む総合的なトレーニング体制を実行している。
情報抽出,質問応答,対話生成などの実世界のタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。
我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文 参考訳(メタデータ) (2023-10-22T02:20:38Z) - Augmenting Black-box LLMs with Medical Textbooks for Clinical Question
Answering [54.13933019557655]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - A Comparative Study of Open-Source Large Language Models, GPT-4 and
Claude 2: Multiple-Choice Test Taking in Nephrology [0.6213359027997152]
本研究は,LLMモデルがNephSAP多重選択質問に対する正しい回答を提供する能力を評価するために行われた。
本研究の結果は将来の医療訓練や患者医療に重大な影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-08-09T05:01:28Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。