Fugu-MT 論文翻訳(概要): Medmarks: A Comprehensive Open-Source LLM Benchmark Suite for Medical Tasks

論文の概要: Medmarks: A Comprehensive Open-Source LLM Benchmark Suite for Medical Tasks

arxiv url: http://arxiv.org/abs/2605.01417v1
Date: Sat, 02 May 2026 12:29:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.760779
Title: Medmarks: A Comprehensive Open-Source LLM Benchmark Suite for Medical Tasks
Title（参考訳）: Medmarks: 総合的なオープンソースLLMベンチマークスイート
Authors: Benjamin Warner, Ratna Sagari Grandhi, Max Kieffer, Aymane Ouraq, Saurav Panigrahi, Geetu Ambwani, Kunal Bagga, Nikhil Khandekar, Arya Hariharan, Nishant Mishra, Manish Ram, Shamus Sim Zi Yang, Ahmed Essouaied, Adepoju Jeremiah Moyondafoluwa, Robert Scholz, Bofeng Huang, Molly Beavers, Srishti Gureja, Anish Mahishi, Sameed Khan, Maxime Griot, Hunar Batra, Jean-Benoit Delbrouck, Siddhant Bharadwaj, Ronald Clark, Ashish Vashist, Anas Zafar, Leema Krishna Murali, Harsh Deshpande, Ameen Patel, William Brown, Johannes Hagemann, Connor Lane, Paul Steven Scotti, Tanishq Mathew Abraham,
Abstract要約: Medmarksは、質問応答、情報抽出、医療計算、オープンな臨床推論にまたがる30のベンチマークを備えた、完全なオープンソース評価スイートである。検証基準とLCM-as-a-Judgeを用いて,71構成の61モデルの体系的評価を行う。
参考スコア（独自算出の注目度）: 12.131182745922843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating large language models (LLMs) for medical applications remains challenging due to benchmark saturation, limited data accessibility, and insufficient coverage of relevant tasks. Existing suites have either saturated, heavily depend on restricted datasets, or lack comprehensive model coverage. We introduce Medmarks, a fully open-source evaluation suite with 30 benchmarks spanning question answering, information extraction, medical calculations, and open-ended clinical reasoning. We perform a systematic evaluation of 61 models across 71 configurations using verifiable metrics and LLM-as-a-Judge. Our results show that frontier reasoning models (Gemini 3 Pro Preview, GPT-5.1, & GPT-5.2) achieve the highest performance across both benchmarks, most frontier proprietary models are significantly more token efficient than open-weight alternatives, medically fine-tuned models outperform their generalist counterparts, and that models are susceptible to answer-order bias (particularly smaller models and Grok 4). A subset of our evals (Medmarks-T) can be directly used as reinforcement learning environments to post-train LLMs for medical reasoning. Code is available at https://github.com/MedARC-AI/Medmarks
Abstract（参考訳）: 医学応用のための大規模言語モデル(LLM)の評価は、ベンチマーク飽和、データアクセシビリティの制限、関連するタスクのカバー不足など、依然として難しい。既存のスイートは飽和しており、制限されたデータセットに大きく依存しているか、包括的なモデルカバレッジが欠如している。 Medmarksは、質問応答、情報抽出、医療計算、オープンな臨床推論にまたがる30のベンチマークを備えた、完全なオープンソース評価スイートである。検証基準とLCM-as-a-Judgeを用いて,71構成の61モデルの体系的評価を行う。その結果,フロンティア推論モデル (Gemini 3 Pro Preview, GPT-5.1, GPT-5.2) は両ベンチマークで最高の性能を示し,フロンティアプロプライエタリモデルはオープンウェイトな代替モデルよりもトークン効率が高く,医学的に微調整されたモデルは一般モデルよりも優れており,解順バイアス(特により小さいモデルとGrok 4)に敏感であることがわかった。我々のevalのサブセット(Medmarks-T)は、医学的推論のために訓練後LSMの強化学習環境として直接使用できる。コードはhttps://github.com/MedARC-AI/Medmarksで入手できる。

関連論文リスト

Evaluating Small Open LLMs for Medical Question Answering: A Practical Framework [0.0]
医学質問応答における大規模言語モデル(LLM)は、平均的精度以上の要求を満たす。 Redditのようなオンライン健康コミュニティは、何百万人ものユーザーにとって、医療情報の主要な情報源となっている。本稿では,小規模かつローカルにデプロイ可能なオープンウェイトLCMを医療質問応答上で評価するための,実用的なオープンソース評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-04-12T08:56:15Z)
When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。 LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文参考訳（メタデータ） (2026-02-27T21:09:43Z)
ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。マルチエージェント生成、検証、改善プロセスを通じて構築される。 ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文参考訳（メタデータ） (2025-06-11T08:36:55Z)
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文参考訳（メタデータ） (2025-03-19T12:51:52Z)
Enabling Scalable Evaluation of Bias Patterns in Medical LLMs [2.089191490381739]
大規模言語モデル(LLMs)は、多くの医学的課題に大きく貢献する可能性を示している。主な関心領域の1つは、医学的応用におけるLSMの偏りのある行動に関連しており、個人の不公平な治療につながっている。本稿では,厳密な医学的証拠に基づく検査ケースの自動生成により,そのようなバイアス評価をスケールアップする手法を提案する。
論文参考訳（メタデータ） (2024-10-18T14:17:03Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models [4.556924372105915]
オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
論文参考訳（メタデータ） (2024-02-29T17:19:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。