Fugu-MT 論文翻訳(概要): Qualifying Chinese Medical Licensing Examination with Knowledge Enhanced Generative Pre-training Model

論文の概要: Qualifying Chinese Medical Licensing Examination with Knowledge Enhanced Generative Pre-training Model

arxiv url: http://arxiv.org/abs/2305.10163v2
Date: Sun, 22 Oct 2023 17:03:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 12:24:29.216961
Title: Qualifying Chinese Medical Licensing Examination with Knowledge Enhanced Generative Pre-training Model
Title（参考訳）: 知識強化型生成前訓練モデルによる中国医学免許試験
Authors: Jiageng Wu, Xian Wu, Zhaopeng Qiu, Minghui Li, Yefeng Zheng, and Jie Yang
Abstract要約: 中国国立医学ライセンス試験(CNMLE)におけるChatGPTの評価単純だが効果的な検索手法を用いて、医学的背景知識を意味的指示として抽出する。関連する医学的質問は、ChatGPTのデモンストレーションとして特定され、提供されます。知識向上モデルでは, CNMLE-2022では, 資格を合格するだけでなく, 人間の平均スコア(61。
参考スコア（独自算出の注目度）: 43.99737951314156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative Pre-Training (GPT) models like ChatGPT have demonstrated exceptional performance in various Natural Language Processing (NLP) tasks. Although ChatGPT has been integrated into the overall workflow to boost efficiency in many domains, the lack of flexibility in the finetuning process hinders its applications in areas that demand extensive domain expertise and semantic knowledge, such as healthcare. In this paper, we evaluate ChatGPT on the China National Medical Licensing Examination (CNMLE) and propose a novel approach to improve ChatGPT from two perspectives: integrating medical domain knowledge and enabling few-shot learning. By using a simple but effective retrieval method, medical background knowledge is extracted as semantic instructions to guide the inference of ChatGPT. Similarly, relevant medical questions are identified and fed as demonstrations to ChatGPT. Experimental results show that directly applying ChatGPT fails to qualify the CNMLE at a score of 51 (i.e., only 51\% of questions are answered correctly). While our knowledge-enhanced model achieves a high score of 70 on CNMLE-2022 which not only passes the qualification but also surpasses the average score of humans (61). This research demonstrates the potential of knowledge-enhanced ChatGPT to serve as versatile medical assistants, capable of analyzing real-world medical problems in a more accessible, user-friendly, and adaptable manner.
Abstract（参考訳）: ChatGPTのような生成前訓練(GPT)モデルは、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。 chatgptは、多くの領域で効率を高めるためにワークフロー全体に統合されているが、微調整プロセスの柔軟性の欠如は、医療のような広範なドメイン専門知識とセマンティック知識を必要とする分野のアプリケーションを妨げる。本稿では,中国国立医学ライセンス試験(CNMLE)におけるChatGPTの評価を行い,医学領域の知識の統合と少数ショット学習の実現という2つの観点からChatGPTを改善する新しいアプローチを提案する。シンプルだが効果的な検索手法を用いて、ChatGPTの推論を導く意味的指示として医学的背景知識を抽出する。同様に、関連する医療質問が特定され、ChatGPTのデモンストレーションとして提供される。実験の結果、chatgptを直接適用しても、スコア51のcnmleの資格が得られないことが示されている(つまり、質問の51\%しか正しく答えられていない)。知識向上モデルでは, CNMLE-2022では70点を達成できるが, 資格を合格するだけでなく, 人間の平均スコア(61。本研究は、よりアクセスしやすく、ユーザフレンドリーで、適応可能な方法で現実世界の医療問題を分析できる、多用途な医療アシスタントとして機能する知識エンハンスドチャットgptの可能性を示す。

関連論文リスト

Enabling Doctor-Centric Medical AI with LLMs through Workflow-Aligned Tasks and Benchmarks [72.89088985703748]
大きな言語モデル(LLM)の台頭は、臨床ガイダンスを提供することで医療に変化をもたらしたが、患者への直接の展開は安全性のリスクをもたらす。我々は,患者と直接対話するのではなく,経験豊富な医師と協力する臨床助手としてLLMを再配置することを提案する。我々は、22の臨床的タスクと27の専門分野にわたる92,000のQ&Aインスタンスからなる大規模な中国の医療データセットであるDoctorFLANを構築した。
論文参考訳（メタデータ） (2025-10-13T06:18:27Z)
PeruMedQA: Benchmarking Large Language Models (LLMs) on Peruvian Medical Exams -- Dataset Construction and Evaluation [0.6899744489931012]
AIMS: 専門的な訓練を追求するペルーの医師が取得した医学検査から質問のデータセットを構築する。 12の医療領域にまたがる8,380の質問を含む多票質問回答データセットであるPulchuMedQAをキュレートした。 Medgemma-27b-text-it は他の全てのモデルよりも優れており、いくつかの例では90%を超える正解率を達成した。
論文参考訳（メタデータ） (2025-09-15T02:07:26Z)
MedCOD: Enhancing English-to-Spanish Medical Translation of Large Language Models Using Enriched Chain-of-Dictionary Framework [8.604097439756378]
MedCODは、言語モデル(LLM)にドメイン固有の構造化知識を統合することで、英語とスペイン語の医療翻訳を改善するために設計されたハイブリッドフレームワークである。我々は,2,999の英語・スペイン語のMedlinePlus記事の並列コーパスと,構造化医療コンテキストを付加した100文テストセットを構築した。実験結果から,MedCODは全モデル間の翻訳品質を著しく向上することが示された。
論文参考訳（メタデータ） (2025-08-31T17:04:09Z)
MIRIAD: Augmenting LLMs with millions of medical query-response pairs [36.32674607022871]
医療用QAペア5,821,948の大規模キュレートコーパスであるMIRIADを紹介する。また,MIRIADの精度はRAGベースラインに比べて6.7%向上した。 56の医学分野にまたがるMIRIADのインタラクティブマップであるMIRIAD-Atlasについても紹介する。
論文参考訳（メタデータ） (2025-06-06T13:52:32Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort [10.66506859118868]
大規模言語モデル (LLMs) は臨床的意思決定支援の分野で非常に進歩している。本研究の目的は,急性心筋梗塞(MI)の発症リスクを論理的推論で予測できることを定量的に評価することである。
論文参考訳（メタデータ） (2024-09-22T14:57:31Z)
Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data [3.471944921180245]
非存在腺であるGlianorexに焦点をあてた架空の医療ベンチマークを開発した。このアプローチにより、LSMの知識をテストテイク能力から切り離すことができます。我々は、これらの質問をゼロショット設定で、様々なオープンソース、プロプライエタリ、ドメイン固有のLCMを評価した。
論文参考訳（メタデータ） (2024-06-04T15:08:56Z)
MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文参考訳（メタデータ） (2023-12-20T07:01:49Z)
PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文参考訳（メタデータ） (2023-10-22T02:20:38Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)
Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。 CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。 LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文参考訳（メタデータ） (2023-06-05T16:48:41Z)
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文参考訳（メタデータ） (2023-04-09T16:31:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。