論文の概要: KorMedMCQA-V: A Multimodal Benchmark for Evaluating Vision-Language Models on the Korean Medical Licensing Examination
- arxiv url: http://arxiv.org/abs/2602.13650v1
- Date: Sat, 14 Feb 2026 07:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.314747
- Title: KorMedMCQA-V: A Multimodal Benchmark for Evaluating Vision-Language Models on the Korean Medical Licensing Examination
- Title(参考訳): KorMedMCQA-V:韓国の医療ライセンス試験におけるビジョンランゲージモデルの評価のためのマルチモーダルベンチマーク
- Authors: Byungjin Choi, Seongsu Bae, Sunjun Kweon, Edward Choi,
- Abstract要約: KorMedMCQA-V (KorMedMCQA-V) は、韓国の医療ライセンス試験方式のマルチモーダル質問応答ベンチマークである。
このデータセットは1,534の質問と2,043の関連画像で構成されている。
- 参考スコア(独自算出の注目度): 16.50828571559655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce KorMedMCQA-V, a Korean medical licensing-exam-style multimodal multiple-choice question answering benchmark for evaluating vision-language models (VLMs). The dataset consists of 1,534 questions with 2,043 associated images from Korean Medical Licensing Examinations (2012-2023), with about 30% containing multiple images requiring cross-image evidence integration. Images cover clinical modalities including X-ray, computed tomography (CT), electrocardiography (ECG), ultrasound, endoscopy, and other medical visuals. We benchmark over 50 VLMs across proprietary and open-source categories-spanning general-purpose, medical-specialized, and Korean-specialized families-under a unified zero-shot evaluation protocol. The best proprietary model (Gemini-3.0-Pro) achieves 96.9% accuracy, the best open-source model (Qwen3-VL-32B-Thinking) 83.7%, and the best Korean-specialized model (VARCO-VISION-2.0-14B) only 43.2%. We further find that reasoning-oriented model variants gain up to +20 percentage points over instruction-tuned counterparts, medical domain specialization yields inconsistent gains over strong general-purpose baselines, all models degrade on multi-image questions, and performance varies notably across imaging modalities. By complementing the text-only KorMedMCQA benchmark, KorMedMCQA-V forms a unified evaluation suite for Korean medical reasoning across text-only and multimodal conditions. The dataset is available via Hugging Face Datasets: https://huggingface.co/datasets/seongsubae/KorMedMCQA-V.
- Abstract(参考訳): KorMedMCQA-Vは、韓国の医療用ライセンス試験方式のマルチモーダル・マルチモーダル質問応答ベンチマークで、視覚言語モデル(VLM)の評価を行う。
このデータセットは、韓国の医療ライセンス試験(2012-2023)の1,534の質問と2,043の関連画像で構成されており、約30%はクロスイメージの証拠の統合を必要とする複数の画像を含んでいる。
画像はX線、CT、心電図(ECG)、超音波、内視鏡、その他の医用画像を含む臨床症状をカバーする。
我々は,一貫したゼロショット評価プロトコルの下で,プロプライエタリおよびオープンソースカテゴリにまたがる50以上のVLMをベンチマークした。
ベストプロプライエタリモデル(Gemini-3.0-Pro)は96.9%の精度、ベストオープンソースモデル(Qwen3-VL-32B-Thinking)は83.7%、ベスト韓国特化モデル(VARCO-VISION-2.0-14B)は43.2%である。
さらに、推論指向のモデル変種は、命令調整されたモデルよりも最大で20ポイント、医学領域の特殊化は、強力な汎用ベースラインよりも一貫性のないゲインを得る。
テキストのみのKorMedMCQAベンチマークを補完することにより、KorMedMCQA-Vは、テキストのみおよびマルチモーダル条件にわたる韓国の医療推論のための統一的な評価スイートを形成する。
データセットは、Hugging Face Datasets: https://huggingface.co/datasets/seongsubae/KorMedMCQA-V. で利用可能である。
関連論文リスト
- Enabling Ultra-Fast Cardiovascular Imaging Across Heterogeneous Clinical Environments with a Generalist Foundation Model and Multimodal Database [64.65360708629485]
MMCMR-427Kは、最大かつ最も包括的なマルチモーダル心血管共鳴k空間データベースである。
CardioMMは、異種高速CMRイメージングシナリオに適応可能な再構成基盤モデルである。
CardioMMは、物理インフォームドデータ一貫性と意味的文脈理解を統合して、堅牢な再構築を実現する。
論文 参考訳(メタデータ) (2025-12-25T12:47:50Z) - CrossMed: A Multimodal Cross-Task Benchmark for Compositional Generalization in Medical Imaging [2.9857131541387827]
医用視覚言語モデルの合成一般化(CG)を評価するベンチマークであるCrossMedを紹介する。
4つの公開データセットを統一的な視覚的質問応答(VQA)フォーマットに再構成し、20,200の複数選択QAインスタンスを生成する。
関連する分割で訓練されたモデルは83.2%の分類精度と0.75のセグメンテーションcIoUを実現し、非関連条件とゼロオーバーラップ条件では性能が著しく低下する。
論文 参考訳(メタデータ) (2025-11-14T07:41:01Z) - Hulu-Med: A Transparent Generalist Model towards Holistic Medical Vision-Language Understanding [112.46150793476603]
透明で汎用的な医用ビジョンランゲージモデル(VLM)であるHulu-Medを紹介する。
Hulu-Medは1670万サンプルのキュレートされたコーパスで訓練されており、12の解剖学的システムと14の医用画像モダリティにまたがっている。
Hulu-Medは、30ベンチマーク中27ベンチマークで既存のオープンソースモデルを上回っ、16ベンチマークでGPT-4oなどのプロプライエタリシステムを上回っている。
論文 参考訳(メタデータ) (2025-10-09T17:06:42Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning [24.9872402922819]
既存の医療用VQAベンチマークは、主にシングルイメージ分析に焦点を当てている。
医療用VQAにおけるマルチイメージ推論を明示的に評価する最初のベンチマークであるMedFrameQAを紹介する。
論文 参考訳(メタデータ) (2025-05-22T17:46:11Z) - KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations [7.8387874506025215]
KorMedMCQAは韓国初の医療用多項目質問回答ベンチマークである。
このデータセットには、医師、看護師、薬剤師、歯科医の診察から7,469の質問が含まれている。
論文 参考訳(メタデータ) (2024-03-03T10:31:49Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Generalist Vision Foundation Models for Medical Imaging: A Case Study of
Segment Anything Model on Zero-Shot Medical Segmentation [5.547422331445511]
9つの医用画像セグメンテーションベンチマークにおいて,定量および定性的ゼロショットセグメンテーションの結果を報告する。
本研究は,医用画像における一般視基盤モデルの汎用性を示すものである。
論文 参考訳(メタデータ) (2023-04-25T08:07:59Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。