論文の概要: KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations
- arxiv url: http://arxiv.org/abs/2506.11114v1
- Date: Mon, 09 Jun 2025 02:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.475011
- Title: KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations
- Title(参考訳): 国史MD-10:全国10施設における大規模言語モデルの評価基準
- Authors: Junyu Liu, Kaiqi Yan, Tianyang Wang, Qian Niu, Momoko Nagai-Tanima, Tomoki Aoyama,
- Abstract要約: 国師MD-10は、日本の10の医療免許試験から構築された最初のマルチモーダルベンチマークである。
このベンチマークは、医学、歯科医学、看護学、薬局、および関連医療専門職を含む複数の分野にまたがる。
実際の11588以上の質問が含まれており、臨床画像と専門家による注釈付き根拠を取り入れて、テキストと視覚的推論の両方を評価している。
- 参考スコア(独自算出の注目度): 6.453078564406654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated notable performance in medical licensing exams. However, comprehensive evaluation of LLMs across various healthcare roles, particularly in high-stakes clinical scenarios, remains a challenge. Existing benchmarks are typically text-based, English-centric, and focus primarily on medicines, which limits their ability to assess broader healthcare knowledge and multimodal reasoning. To address these gaps, we introduce KokushiMD-10, the first multimodal benchmark constructed from ten Japanese national healthcare licensing exams. This benchmark spans multiple fields, including Medicine, Dentistry, Nursing, Pharmacy, and allied health professions. It contains over 11588 real exam questions, incorporating clinical images and expert-annotated rationales to evaluate both textual and visual reasoning. We benchmark over 30 state-of-the-art LLMs, including GPT-4o, Claude 3.5, and Gemini, across both text and image-based settings. Despite promising results, no model consistently meets passing thresholds across domains, highlighting the ongoing challenges in medical AI. KokushiMD-10 provides a comprehensive and linguistically grounded resource for evaluating and advancing reasoning-centric medical AI across multilingual and multimodal clinical tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、医学的ライセンス試験において顕著なパフォーマンスを示している。
しかし、様々な医療分野、特に高い臨床シナリオにおけるLCMの包括的評価は依然として課題である。
既存のベンチマークはテキストベースであり、主に医学に焦点を当てており、より広範な医療知識とマルチモーダル推論を評価する能力を制限する。
このようなギャップに対処するため,全国10の医療免許試験から構築された初のマルチモーダル・ベンチマークである「国師MD-10」を紹介した。
このベンチマークは、医学、歯科医学、看護学、薬学、および関連医療専門職を含む複数の分野にまたがる。
実際の11588以上の質問が含まれており、臨床画像と専門家による注釈付き根拠を取り入れて、テキストと視覚的推論の両方を評価している。
GPT-4o、Claude 3.5、Geminiを含む30以上の最先端のLCMを、テキストと画像ベースの設定でベンチマークします。
有望な結果にもかかわらず、どのモデルも一貫してドメイン間のしきい値を満たしておらず、医療AIにおける進行中の課題を強調している。
KokushiMD-10は、多言語および多モーダルな臨床タスクにまたがる推論中心の医療AIの評価と進歩のための包括的で言語的に根ざしたリソースを提供する。
関連論文リスト
- Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - VM14K: First Vietnamese Medical Benchmark [12.442210642499365]
最初のベトナムの医療質問ベンチマークでは、34の医療専門分野に14,000の多重選択質問が提供されている。
本ベンチマークは,精査試験や臨床記録など,様々な検証可能な資料を用いて構築した。
この設計により、対象言語における言語モデルの医学的理解の幅と深さを評価することができる。
論文 参考訳(メタデータ) (2025-06-02T04:32:15Z) - Polish Medical Exams: A new dataset for cross-lingual medical knowledge transfer assessment [0.865489625605814]
本研究では,ポーランドの医療ライセンシングと専門化試験に基づく新しいベンチマークデータセットを提案する。
ポーランド語と英語のパラレルコーパスのサブセットを含む24,000以上の試験質問を含んでいる。
汎用・ドメイン特化・ポーランド特化モデルを含む最先端のLCMを評価し,その性能を人間医学生と比較した。
論文 参考訳(メタデータ) (2024-11-30T19:02:34Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。