論文の概要: GPT-4 can pass the Korean National Licensing Examination for Korean
Medicine Doctors
- arxiv url: http://arxiv.org/abs/2303.17807v2
- Date: Fri, 17 Nov 2023 01:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 20:01:06.052249
- Title: GPT-4 can pass the Korean National Licensing Examination for Korean
Medicine Doctors
- Title(参考訳): GPT-4は韓国の医師免許試験に合格できる
- Authors: Dongyeop Jang, Tae-Rim Yun, Choong-Yeol Lee, Young-Kyu Kwon, Chang-Eop
Kim
- Abstract要約: 本研究は,韓国伝統医学(TKM)におけるGPT-4の能力について検討した。
我々は,中国語の長期的アノテーション,質問と指導のための英語翻訳,試験最適化指導,自己整合性でプロンプトを最適化した。
最適化されたプロンプトを持つGPT-4は66.18%の精度を達成し、各被験者の平均パスマークは60%、最低40%を超えた。
- 参考スコア(独自算出の注目度): 9.374652839580182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Korean medicine (TKM) emphasizes individualized diagnosis and
treatment. This uniqueness makes AI modeling difficult due to limited data and
implicit processes. Large language models (LLMs) have demonstrated impressive
medical inference, even without advanced training in medical texts. This study
assessed the capabilities of GPT-4 in TKM, using the Korean National Licensing
Examination for Korean Medicine Doctors (K-NLEKMD) as a benchmark. The
K-NLEKMD, administered by a national organization, encompasses 12 major
subjects in TKM. We optimized prompts with Chinese-term annotation, English
translation for questions and instruction, exam-optimized instruction, and
self-consistency. GPT-4 with optimized prompts achieved 66.18% accuracy,
surpassing both the examination's average pass mark of 60% and the 40% minimum
for each subject. The gradual introduction of language-related prompts and
prompting techniques enhanced the accuracy from 51.82% to its maximum accuracy.
GPT-4 showed low accuracy in subjects including public health &
medicine-related law, internal medicine (2) which are localized in Korea and
TKM. The model's accuracy was lower for questions requiring TKM-specialized
knowledge. It exhibited higher accuracy in diagnosis-based and recall-based
questions than in intervention-based questions. A positive correlation was
observed between the consistency and accuracy of GPT-4's responses. This study
unveils both the potential and challenges of applying LLMs to TKM. These
findings underline the potential of LLMs like GPT-4 in culturally adapted
medicine, especially TKM, for tasks such as clinical assistance, medical
education, and research. But they also point towards the necessity for the
development of methods to mitigate cultural bias inherent in large language
models and validate their efficacy in real-world clinical settings.
- Abstract(参考訳): 伝統朝鮮医学(tkm)は個別診断と治療を強調する。
このユニークさは、限られたデータと暗黙のプロセスのために、AIモデリングを難しくする。
大規模言語モデル(LLM)は、医学的テキストの高度な訓練がなくても、印象的な医学的推論を示す。
本研究は,韓国医学会(K-NLEKMD)をベンチマークとして,TKMにおけるGPT-4の能力を評価した。
国家機関によって管理されているK-NLEKMDは、TKMの主要な12の被験者を含んでいる。
我々は,中国語の長期アノテーション,質問と指導のための英語翻訳,試験最適化指導,自己整合性を最適化した。
最適化されたプロンプトを持つGPT-4は66.18%の精度を達成し、各被験者の平均パスマークが60%、最低40%を上回った。
言語関連プロンプトの段階的な導入とプロンプト技術により、精度は51.82%から最大精度まで向上した。
gpt-4は,韓国でローカライズされた公衆衛生・医療関連法,内科的医療(2),tkmなどにおいて低い精度を示した。
このモデルの精度は、TKM特化知識を必要とする質問に対して低かった。
診断に基づく質問とリコールに基づく質問は,介入に基づく質問よりも高い精度を示した。
gpt-4の応答の一貫性と精度との間には正の相関が認められた。
本研究では,TLMをTKMに適用する可能性と課題を明らかにする。
これらの発見は、gpt-4のようなllmの文化的適応医療、特にtkmにおける臨床支援、医学教育、研究における可能性を示すものである。
しかし、彼らはまた、大きな言語モデルに固有の文化的バイアスを緩和し、実際の臨床環境での有効性を検証する方法の開発の必要性も指摘している。
関連論文リスト
- GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training (TXIT) Exam
and Red Journal Gray Zone Cases: Potentials and Challenges for AI-Assisted
Medical Education and Decision Making in Radiation Oncology [7.094683738932199]
The 38th American College of Radiology (ACR) radiation oncology in-training (TXIT) testと2022 Red Journal Gray Zone caseを用いた放射線腫瘍学におけるChatGPT-4の性能評価を行った。
TXIT試験では、ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%のスコアを得た。
ChatGPT-4は、ブラキセラピーやドシメトリーよりも診断、予後、毒性が優れている。
論文 参考訳(メタデータ) (2023-04-24T09:50:39Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。