Fugu-MT 論文翻訳(概要): MedBench v4: A Robust and Scalable Benchmark for Evaluating Chinese Medical Language Models, Multimodal Models, and Intelligent Agents

論文の概要: MedBench v4: A Robust and Scalable Benchmark for Evaluating Chinese Medical Language Models, Multimodal Models, and Intelligent Agents

arxiv url: http://arxiv.org/abs/2511.14439v2
Date: Wed, 19 Nov 2025 04:04:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-20 13:41:21.141179
Title: MedBench v4: A Robust and Scalable Benchmark for Evaluating Chinese Medical Language Models, Multimodal Models, and Intelligent Agents
Title（参考訳）: MedBench v4: 中国の医療言語モデル、マルチモーダルモデル、インテリジェントエージェントを評価するためのロバストでスケーラブルなベンチマーク
Authors: Jinru Ding, Lu Lu, Chao Ding, Mouxiao Bian, Jiayuan Chen, Wenrao Pang, Ruiyao Chen, Xinwei Peng, Renjie Lu, Sijie Ren, Guanxu Zhu, Xiaoqin Wu, Zhiqiang Liu, Rongzhao Zhang, Luyi Jiang, Bing Han, Yunqiu Wang, Jie Xu,
Abstract要約: MedBench v4は全国的なクラウドベースのベンチマークインフラストラクチャで、70,000あまりのエキスパートがキュレートされたタスクで構成されています。 500以上の機関の臨床医による多段階的改善と多段階的レビューの項目は、人間の評価に対するLLM-as-a-judgeによって評価される。 LLMの総合得点は54.1/100(クロード・ソネット4.5, 62.5/100)であるが、安全と倫理は依然として低い。マルチモーダルモデルは全体的な性能が悪く(平均47.5/100; 最高: GPT-5, 54.9/100)、認識力はやや弱い。
参考スコア（独自算出の注目度）: 10.963960571170643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in medical large language models (LLMs), multimodal models, and agents demand evaluation frameworks that reflect real clinical workflows and safety constraints. We present MedBench v4, a nationwide, cloud-based benchmarking infrastructure comprising over 700,000 expert-curated tasks spanning 24 primary and 91 secondary specialties, with dedicated tracks for LLMs, multimodal models, and agents. Items undergo multi-stage refinement and multi-round review by clinicians from more than 500 institutions, and open-ended responses are scored by an LLM-as-a-judge calibrated to human ratings. We evaluate 15 frontier models. Base LLMs reach a mean overall score of 54.1/100 (best: Claude Sonnet 4.5, 62.5/100), but safety and ethics remain low (18.4/100). Multimodal models perform worse overall (mean 47.5/100; best: GPT-5, 54.9/100), with solid perception yet weaker cross-modal reasoning. Agents built on the same backbones substantially improve end-to-end performance (mean 79.8/100), with Claude Sonnet 4.5-based agents achieving up to 85.3/100 overall and 88.9/100 on safety tasks. MedBench v4 thus reveals persisting gaps in multimodal reasoning and safety for base models, while showing that governance-aware agentic orchestration can markedly enhance benchmarked clinical readiness without sacrificing capability. By aligning tasks with Chinese clinical guidelines and regulatory priorities, the platform offers a practical reference for hospitals, developers, and policymakers auditing medical AI.
Abstract（参考訳）: 医療用大規模言語モデル(LLM)やマルチモーダルモデル、エージェントは、実際の臨床ワークフローや安全性の制約を反映した評価フレームワークを要求している。我々は、LLM、マルチモーダルモデル、エージェント専用のトラックを備えた、24のプライマリおよび91のセカンダリスペシャルにまたがる70,000以上の専門家によるタスクからなる、全国的なクラウドベースのベンチマークインフラストラクチャであるMedBench v4を紹介する。 500以上の機関から多段階のリファインメントと多段階のレビューを受けており、人間の評価を基準としたLCM-as-a-judgeによってオープンエンドの回答が得られている。我々は15のフロンティアモデルを評価する。 LLMの平均スコアは54.1/100(クロード・ソネット4.5、62.5/100)であるが、安全性と倫理は低い(18.4/100)。マルチモーダルモデルは全体的なパフォーマンスが悪く(平均47.5/100; 最高: GPT-5, 54.9/100)、断続的推論は弱い。同じバックボーン上に構築されたエージェントは、エンド・ツー・エンドのパフォーマンス(平均79.8/100)を大幅に改善し、クロード・ソネット 4.5ベースのエージェントは全体の85.3/100、安全タスクは88.9/100に達した。したがって、MedBench v4は、ベースモデルのマルチモーダル推論と安全性の持続的なギャップを明らかにし、ガバナンスを意識したエージェントオーケストレーションは、犠牲になることなく、ベンチマークされた臨床準備性を著しく向上させることができることを示した。タスクを中国の臨床ガイドラインと規制の優先順位に合わせることで、このプラットフォームは、医療AIを監査する病院、開発者、政策立案者に実践的な参照を提供する。

関連論文リスト

LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。 LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文参考訳（メタデータ） (2026-02-18T03:59:46Z)
Automated Rubrics for Reliable Evaluation of Medical Dialogue Systems [19.880569341968023]
大規模言語モデル(LLM)は、幻覚や安全でない提案が患者の安全に直接的なリスクをもたらすという、臨床的な意思決定支援にますます利用されている。本稿では,インスタンス固有の評価ルーリックの自動生成を目的とした検索拡張型マルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-21T16:40:41Z)
MLB: A Scenario-Driven Benchmark for Evaluating Large Language Models in Clinical Applications [27.73095565539546]
基礎知識とシナリオベース推論の両方に基づいて,LLM(Large Language Models)を評価するベンチマークである医療用LLMベンチマークMLBを紹介する。 MLBは、医療知識(MedKQA)、安全と倫理(MedSE)、医療記録理解(MedRU)、スマートサービス(SmartServ)、スマートヘルスケア(SmartCare)の5つのコア次元で構成されている。その設計は、300人の医師が参加する厳格なキュレーションパイプラインを特徴としている。また、専門家アノテーションに基づいて訓練されたSFT(Supervised Fine-Tuning)を用いた特別審査モデルを中心に、スケーラブルな評価手法を提供する。
論文参考訳（メタデータ） (2026-01-08T02:41:42Z)
EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T14:09:55Z)
MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。 6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文参考訳（メタデータ） (2025-08-22T08:38:16Z)
Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。 LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文参考訳（メタデータ） (2025-07-30T08:44:22Z)
MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。 MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-05-26T22:55:49Z)
How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文参考訳（メタデータ） (2024-12-12T18:20:16Z)
Eir: Thai Medical Large Language Models [0.0]
Eir-8Bは、タイ語での医療タスクの処理精度を高めるために設計された80億のパラメータを持つ大規模な言語モデルである。人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。モデルは病院の内部ネットワーク内に展開され、高いセキュリティと高速な処理速度が保証される。
論文参考訳（メタデータ） (2024-09-13T04:06:00Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。