論文の概要: Assessing LLMs' Performance: Insights from the Chinese Pharmacist Exam
- arxiv url: http://arxiv.org/abs/2511.20526v1
- Date: Tue, 25 Nov 2025 17:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.578435
- Title: Assessing LLMs' Performance: Insights from the Chinese Pharmacist Exam
- Title(参考訳): LLMのパフォーマンスを評価する:中国の薬剤師の成果から
- Authors: Xinran Wang, Boran Zhu, Shujuan Zhou, Ziwen Long, Dehua Zhou, Shu Zhang,
- Abstract要約: 中国では、国家薬剤師試験は、薬剤師の臨床的および理論的能力を評価するための標準化されたベンチマークとして機能する。
本研究では,ChatGPT-4oとDeepSeek-R1の2つの大規模言語モデルの性能を比較することを目的とした。
- 参考スコア(独自算出の注目度): 9.07457306513003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: As large language models (LLMs) become increasingly integrated into digital health education and assessment workflows, their capabilities in supporting high-stakes, domain-specific certification tasks remain underexplored.In China, the national pharmacist licensure exam serves as a standardized benchmark for evaluating pharmacists' clinical and theoretical competencies. Objective: This study aimed to compare the performance of two LLMs: ChatGPT-4o and DeepSeek-R1 on real questions from the Chinese Pharmacist Licensing Examination (2017-2021), and to discuss the implications of these performance differences for AI-enabled formative evaluation. Methods: A total of 2,306 multiple-choice (text-only) questions were compiled from official exams, training materials, and public databases. Questions containing tables or images were excluded. Each item was input in its original Chinese format, and model responses were evaluated for exact accuracy. Pearson's Chi-squared test was used to compare overall performance, and Fisher's exact test was applied to year-wise multiple-choice accuracy. Results: DeepSeek-R1 outperformed ChatGPT-4o with a significantly higher overall accuracy (90.0% vs. 76.1%, p < 0.001). Unit-level analyses revealed consistent advantages for DeepSeek-R1, particularly in foundational and clinical synthesis modules. While year-by-year multiple-choice performance also favored DeepSeek-R1, this performance gap did not reach statistical significance in any specific unit-year (all p > 0.05). Conclusion: DeepSeek-R1 demonstrated robust alignment with the structural and semantic demands of the pharmacist licensure exam. These findings suggest that domain-specific models warrant further investigation for this context, while also reinforcing the necessity of human oversight in legally and ethically sensitive contexts.
- Abstract(参考訳): 背景: 大規模言語モデル(LLMs)がデジタルヘルス教育やアセスメントのワークフローに統合されるにつれて、ハイテイクなドメイン固有の認定タスクを支援する能力はいまだ探索されていないが、中国では、薬剤師の臨床的、理論的能力を評価するための標準化されたベンチマークとして、国家薬剤師免許試験が機能している。
目的: この研究は,中国の薬剤師ライセンス試験(2017-2021)の実際の質問に対して,ChatGPT-4oとDeepSeek-R1の2つのLLMのパフォーマンスを比較し,これらの性能差がAIによる形式的評価に与える影響について議論することを目的とした。
メソッド: 公式試験, トレーニング資料, 公開データベースから, 合計2,306問(テキストのみ)の質問がまとめられた。
表や画像を含む質問は除外された。
各項目は元の中国語形式で入力され、モデル応答は正確な精度で評価された。
ピアソンのチ二乗検定は全体の性能を比較するのに使われ、フィッシャーの正確な検定は年次多重選点精度に適用された。
結果:DeepSeek-R1ではChatGPT-4oが90.0%,76.1%,p < 0.001)に優れていた。
ユニットレベルの分析では、DeepSeek-R1、特に基礎および臨床合成モジュールに対して一貫した優位性を示した。
年ごとの複数選択のパフォーマンスもDeepSeek-R1を好んだが、このパフォーマンスギャップは特定の単位年(p > 0.05)で統計的に重要ではなかった。
結論: DeepSeek-R1 は薬剤師免許試験の構造的および意味的要求と堅牢な一致を示した。
これらの知見は、ドメイン固有のモデルは、法的および倫理的に敏感な文脈における人間の監視の必要性を補強しつつ、この文脈についてさらなる調査を保証していることを示唆している。
関連論文リスト
- A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Beyond Overall Accuracy: A Psychometric Deep Dive into the Topic-Specific Medical Capabilities of 80 Large Language Models [6.362188639024662]
項目応答理論(IRT)に基づく厳密な評価フレームワークであるtextscMedIRT を紹介する。
80の多種多様な言語モデル (LLMs) から, バランスのとれた1,100のUSMLE準拠のベンチマークで, 新たな回答を期待して収集した。
LLMの潜在モデル能力は質問の難易度や識別と共同で推定し、精度のみよりも安定でニュアンスの高い性能ランキングを得る。
論文 参考訳(メタデータ) (2025-09-29T02:06:13Z) - MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs [62.60333833486799]
AnesSuiteは、LSMの麻酔学推論用に特別に設計された最初のデータセットスイートである。
Morpheusは麻酔学の推論のための最初のベースラインモデルコレクションである。
論文 参考訳(メタデータ) (2025-04-03T08:54:23Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。
我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。
EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。