論文の概要: JMed48k: A Multi-Profession Japanese Medical Licensing Benchmark for Vision-Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2605.22080v2
- Date: Thu, 28 May 2026 03:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.524558
- Title: JMed48k: A Multi-Profession Japanese Medical Licensing Benchmark for Vision-Language Model Evaluation
- Title(参考訳): JMed48k ビジョンランゲージモデル評価のための多職種医療ライセンスベンチマーク
- Authors: Yue Xun, Junyu Liu, Qian Niu, Xinyi Wang, Zheng Yuan, Zirui Li, Zequn Zhang, Bowen Zhao, Shujun Wang, Irene Li, Kan Hatakeyama-Sato, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 本稿では,視覚言語モデルを評価するための医療ライセンスベンチマークであるJMed48kを紹介する。
JMed48kは、厚生労働省が発行した公式PDF資料から作成され、48,862件の試験質問と20,142件の画像を収録している。
JMed48k-Evalは,テキストのみの質問9,905件,画像による質問2,579件を含む12,484件の回答を得た。
- 参考スコア(独自算出の注目度): 53.571125769505194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce JMed48k, a multi-profession Japanese healthcare licensing benchmark for evaluating vision-language models. Built from official PDF materials released by the Japanese Ministry of Health, Labour and Welfare, JMed48k contains 48,862 exam questions and 20,142 images from 11 national licensing examinations between 2005 and 2025, with visual content annotated under an 8-type taxonomy. From this corpus, we derive JMed48k-Eval, a recent five-year evaluation subset with 12,484 scored questions, including 9,905 text-only questions and 2,579 questions with images. We evaluate 21 proprietary, open-source, and medical-specific models, reporting text-only and with-image performance separately. Because these subsets contain different questions, we further introduce a paired image-removal audit that evaluates questions with images before and after removing visual content to explore four answer-transition states. The audit shows that proprietary and open source models gain substantially from images, whereas medical-specific systems show limited observable use of visual evidence, with many correct answers persisting after image removal. Even among proprietary models, the net image-removal effect varies sevenfold across professions, from +5.7 points on Physician questions to +39.8 points on Public Health Nurse questions. We release JMed48k to support reproducible, profession-stratified evaluation of vision-language models in medical licensing settings.
- Abstract(参考訳): JMed48kは、視覚言語モデルを評価するための、多分野の日本の医療ライセンスベンチマークである。
JMed48kは、厚生労働省が発行した公式PDF資料から作成され、2005年から2025年までの全国11回の試験から、48,862件の試験質問と20,142件の画像を収録している。
このコーパスからJMed48k-Evalを導出した。この5年間の評価サブセットには12,484の質問が含まれており、テキストのみの質問は9,905、画像による質問は2,579だった。
我々は21のプロプライエタリ、オープンソース、医療特化モデルを評価し、テキストのみと画像なしのパフォーマンスを別々に報告した。
これらのサブセットは異なる質問を含むため、さらに4つの回答遷移状態を調べるために、視覚的コンテンツを削除した前後に、画像による質問を評価するペア画像除去監査を導入する。
監査では、プロプライエタリなオープンソースモデルとオープンソースモデルは、画像から大きく得ているのに対し、医療固有のシステムは、視覚的証拠の観測可能な使用が限られており、画像除去後に多くの正しい回答が持続している。
プロプライエタリなモデルの中でも、画像除去効果は職業によって7倍に変化しており、医師の質問の+5.7点から公衆衛生の質問の+39.8点まで様々である。
我々はJMed48kをリリースし、医療用ライセンス設定における視覚言語モデルの再現性、職業的階層化評価をサポートする。
関連論文リスト
- ReXInTheWild: A Unified Benchmark for Medical Photograph Understanding [33.868464991344354]
ReXInTheWildは,7つの臨床トピックにまたがる,955のクリニカル認定多重選択質問のベンチマークである。
Gemini-3の精度は78%、Claude Opus 4.5 (72%) と GPT-5 (68%) が続く。
体系的エラー解析はまた、低レベルの幾何学的誤りから高レベルの推論失敗まで、一般的なエラーの4つのカテゴリを明らかにしている。
論文 参考訳(メタデータ) (2026-03-19T22:54:28Z) - KorMedMCQA-V: A Multimodal Benchmark for Evaluating Vision-Language Models on the Korean Medical Licensing Examination [16.50828571559655]
KorMedMCQA-V (KorMedMCQA-V) は、韓国の医療ライセンス試験方式のマルチモーダル質問応答ベンチマークである。
このデータセットは1,534の質問と2,043の関連画像で構成されている。
論文 参考訳(メタデータ) (2026-02-14T07:42:04Z) - Are Large Vision Language Models Truly Grounded in Medical Images? Evidence from Italian Clinical Visual Question Answering [27.308408027453012]
イタリアの医学的疑問に答える際に,大きな視覚言語モデル (VLM) が真の視覚的根拠を示すかどうかを検討する。
我々は4つの最先端モデル(Claude Sonnet 4.5, GPT-4o, GPT-5-mini, Gemini 2.0 flash exp)をテストする。
論文 参考訳(メタデータ) (2025-11-24T15:26:58Z) - Hulu-Med: A Transparent Generalist Model towards Holistic Medical Vision-Language Understanding [112.46150793476603]
透明で汎用的な医用ビジョンランゲージモデル(VLM)であるHulu-Medを紹介する。
Hulu-Medは1670万サンプルのキュレートされたコーパスで訓練されており、12の解剖学的システムと14の医用画像モダリティにまたがっている。
Hulu-Medは、30ベンチマーク中27ベンチマークで既存のオープンソースモデルを上回っ、16ベンチマークでGPT-4oなどのプロプライエタリシステムを上回っている。
論文 参考訳(メタデータ) (2025-10-09T17:06:42Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations [6.453078564406654]
国師MD-10は、日本の10の医療免許試験から構築された最初のマルチモーダルベンチマークである。
このベンチマークは、医学、歯科医学、看護学、薬局、および関連医療専門職を含む複数の分野にまたがる。
実際の11588以上の質問が含まれており、臨床画像と専門家による注釈付き根拠を取り入れて、テキストと視覚的推論の両方を評価している。
論文 参考訳(メタデータ) (2025-06-09T02:26:02Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Towards the Use of Saliency Maps for Explaining Low-Quality Electrocardiograms to End Users [51.644376281196394]
診断に医用画像を使用する場合,画像が高品質であることが重要である。
遠隔医療において一般的な問題は、患者が診療所を退院した後にのみ、品質問題が警告されることである。
本稿では,低品質な医用画像をリアルタイムにフラグ付け,説明するためのAIシステムの開発について報告する。
論文 参考訳(メタデータ) (2022-07-06T14:53:26Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。