論文の概要: 47B Mixture-of-Experts Beats 671B Dense Models on Chinese Medical Examinations
- arxiv url: http://arxiv.org/abs/2511.21701v1
- Date: Sun, 16 Nov 2025 06:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.340566
- Title: 47B Mixture-of-Experts Beats 671B Dense Models on Chinese Medical Examinations
- Title(参考訳): 47Bミクチャー・オブ・サーキットが中国医学検査で671BのDenseモデルを上回る
- Authors: Chiung-Yi Tseng, Danyang Zhang, Tianyang Wang, Hongying Luo, Lu Chen, Junming Huang, Jibin Guan, Junfeng Hao, Junhao Song, Ziqian Bi,
- Abstract要約: 本稿では,中国における医学検査問題に対する27大言語モデル (LLM) のベンチマーク評価を行った。
解析の結果,Mixtral-8x7Bの精度は74.25%と高いことがわかった。
この評価は、心臓血管および神経学の質問に対して、モデルが一般的により良く機能する、医学的専門性の間の大きなパフォーマンスギャップを示す。
- 参考スコア(独自算出の注目度): 10.072653135781207
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of large language models(LLMs) has prompted significant interest in their potential applications in medical domains. This paper presents a comprehensive benchmark evaluation of 27 state-of-the-art LLMs on Chinese medical examination questions, encompassing seven medical specialties across two professional levels. We introduce a robust evaluation framework that assesses model performance on 2,800 carefully curated questions from cardiovascular, gastroenterology, hematology, infectious diseases, nephrology, neurology, and respiratory medicine domains. Our dataset distinguishes between attending physician and senior physician difficulty levels, providing nuanced insights into model capabilities across varying complexity. Our empirical analysis reveals substantial performance variations among models, with Mixtral-8x7B achieving the highest overall accuracy of 74.25%, followed by DeepSeek-R1-671B at 64.07%. Notably, we observe no consistent correlation between model size and performance, as evidenced by the strong performance of smaller mixture-of-experts architectures. The evaluation demonstrates significant performance gaps between medical specialties, with models generally performing better on cardiovascular and neurology questions compared to gastroenterology and nephrology domains. Furthermore, our analysis indicates minimal performance degradation between attending and senior physician levels for top-performing models, suggesting robust generalization capabilities. This benchmark provides critical insights for the deployment of LLMs in medical education and clinical decision support systems, highlighting both the promise and current limitations of these technologies in specialized medical contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、医療分野への応用への大きな関心を呼び起こしている。
本報告では,中国における医学検査問題に対する27種類のLLMの総合的評価を行い,2つの専門レベルにわたる7つの専門分野を網羅した。
心臓血管,胃腸学,血液学,感染症,腎学,神経学,呼吸器医学領域の2,800件の質問に対して,モデル性能を慎重に評価するロバストな評価枠組みを導入する。
我々のデータセットは、出席医と上級医師の難易度を区別し、様々な複雑さにまたがるモデル能力に関する微妙な洞察を提供する。
私たちの経験的分析では、Mixtral-8x7Bが74.25%、DeepSeek-R1-671Bが64.07%の精度で、モデル間ではかなりのパフォーマンスの違いが示されています。
特に,より小型のミックス・オブ・エキスパートアーキテクチャの強い性能が示すように,モデルサイズと性能の間には一貫性のない相関関係はみられない。
この評価は, 内科領域や腎疾患領域と比較して, 心臓血管および神経学の質問に対して, 一般的には優れた成績を示すモデルである。
さらに,トップパフォーマンスモデルにおける主観的医師レベルと上級医師レベルのパフォーマンス劣化が最小限に抑えられ,ロバストな一般化能力が示唆された。
このベンチマークは、医学教育および臨床意思決定支援システムにおけるLSMの展開に重要な洞察を与え、これらの技術の約束と現在の限界を専門的な医学的文脈で強調する。
関連論文リスト
- Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025:A Comparative Analysis of Clinical Reasoning and Knowledge Application [0.0]
本研究は,2024年と2025年のスペイン医療インターンMIR試験における22大言語モデルLLMの比較評価を行った。
MIR試験は、画像解釈を必要とする210の複数の選択質問からなる。
この結果は、医療AI応用の進展において、ドメイン固有の微調整とマルチモーダル統合の変革の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-24T12:08:26Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。