論文の概要: Exploring the Potential of Large Language models in Traditional Korean
Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare
- arxiv url: http://arxiv.org/abs/2303.17807v1
- Date: Fri, 31 Mar 2023 05:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 15:20:32.986477
- Title: Exploring the Potential of Large Language models in Traditional Korean
Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare
- Title(参考訳): 韓国医学における大規模言語モデルの可能性を探る--文化的適応医療への基礎モデルアプローチ
- Authors: Dongyeop Jang and Chang-Eop Kim
- Abstract要約: 大規模言語モデルであるGPT-3.5とGPT-4は、医学的な訓練を欠いているにもかかわらず、優れた医学的知識を示している。
本研究は,TKMにおけるGPT-3.5とGPT-4の能力を評価することを目的とした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Introduction: Traditional Korean medicine (TKM) emphasizes individualized
diagnosis and treatment, making AI modeling difficult due to limited data and
implicit processes. GPT-3.5 and GPT-4, large language models, have shown
impressive medical knowledge despite lacking medicine-specific training. This
study aimed to assess the capabilities of GPT-3.5 and GPT-4 for TKM using the
Korean National Licensing Examination for Korean Medicine Doctors. Methods:
GPT-3.5 (February 2023) and GPT-4 (March 2023) models answered 340 questions
from the 2022 examination across 12 subjects. Each question was independently
evaluated five times in an initialized session. Results: GPT-3.5 and GPT-4
achieved 42.06% and 57.29% accuracy, respectively, with GPT-4 nearing passing
performance. There were significant differences in accuracy by subjects, with
83.75% accuracy for neuropsychiatry compared to 28.75% for internal medicine
(2). Both models showed high accuracy in recall-based and diagnosis-based
questions but struggled with intervention-based ones. The accuracy for
questions that require TKM-specialized knowledge was relatively lower than the
accuracy for questions that do not GPT-4 showed high accuracy for table-based
questions, and both models demonstrated consistent responses. A positive
correlation between consistency and accuracy was observed. Conclusion: Models
in this study showed near-passing performance in decision-making for TKM
without domain-specific training. However, limits were also observed that were
believed to be caused by culturally-biased learning. Our study suggests that
foundation models have potential in culturally-adapted medicine, specifically
TKM, for clinical assistance, medical education, and medical research.
- Abstract(参考訳): 導入: 従来の韓国医学(TKM)は個々の診断と治療を強調し、限られたデータと暗黙のプロセスのためにAIモデリングを困難にしている。
大規模言語モデルであるGPT-3.5とGPT-4は、医学固有の訓練を欠いているにもかかわらず、素晴らしい医療知識を示している。
本研究は,TKMにおけるGPT-3.5とGPT-4の能力を評価することを目的とした。
方法: GPT-3.5 (2023年2月) と GPT-4 (2023年3月) のモデルでは, 被験者12名を対象に, 2022年の調査から340の回答を得た。
各質問は、初期化セッションでそれぞれ5回独立に評価された。
結果: GPT-3.5 と GPT-4 はそれぞれ 42.06% と 57.29% の精度で GPT-4 は通過性能に近かった。
被験者の精度には有意差があり、神経心理学では83.75%、内科医学では28.75%であった(第2報)。
どちらのモデルもリコールベースと診断ベースでは高い精度を示したが、介入ベースでは困難であった。
TKM-特定知識を必要とする質問の精度は、GPT-4でない質問の精度よりも比較的低く、表に基づく質問の精度は高く、両モデルとも一貫した応答を示した。
一貫性と精度の正の相関が認められた。
結論: 本研究のモデルはドメイン特化訓練を伴わないtkmの意思決定においてほぼ合格性能を示した。
しかし、文化に偏った学習によって引き起こされたと考えられる限界も観察された。
本研究は, 臨床支援, 医学教育, 医学研究など, 文化的適応医療における基礎モデルの可能性について示唆する。
関連論文リスト
- MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Large Language Models in Medical Term Classification and Unexpected
Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。
データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。
FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文 参考訳(メタデータ) (2023-12-19T17:36:48Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training
Regime and Better Alignment to Human Preferences [55.42521181558716]
中国医学領域向けに設計された新しいベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、コンテキスト長を4,096トークンに拡大し、事前トレーニング、SFT、RLHFを含む総合的なトレーニング体制を実行している。
情報抽出,質問応答,対話生成などの実世界のタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training (TXIT) Exam
and Red Journal Gray Zone Cases: Potentials and Challenges for AI-Assisted
Medical Education and Decision Making in Radiation Oncology [7.094683738932199]
The 38th American College of Radiology (ACR) radiation oncology in-training (TXIT) testと2022 Red Journal Gray Zone caseを用いた放射線腫瘍学におけるChatGPT-4の性能評価を行った。
TXIT試験では、ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%のスコアを得た。
ChatGPT-4は、ブラキセラピーやドシメトリーよりも診断、予後、毒性が優れている。
論文 参考訳(メタデータ) (2023-04-24T09:50:39Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。