論文の概要: MedBench v4: A Robust and Scalable Benchmark for Evaluating Chinese Medical Language Models, Multimodal Models, and Intelligent Agents
- arxiv url: http://arxiv.org/abs/2511.14439v1
- Date: Tue, 18 Nov 2025 12:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.111807
- Title: MedBench v4: A Robust and Scalable Benchmark for Evaluating Chinese Medical Language Models, Multimodal Models, and Intelligent Agents
- Title(参考訳): MedBench v4: 中国の医療言語モデル、マルチモーダルモデル、インテリジェントエージェントを評価するためのロバストでスケーラブルなベンチマーク
- Authors: Jinru Ding, Lu Lu, Chao Ding, Mouxiao Bian, Jiayuan Chen, Renjie Lu, Wenrao Pang, Xiaoqin Wu, Zhiqiang Liu, Luyi Jiang, Bing Han, Yunqiu Wang, Jie Xu,
- Abstract要約: MedBench v4は全国的なクラウドベースのベンチマークインフラストラクチャで、70,000あまりのエキスパートがキュレートされたタスクで構成されています。
500以上の機関の臨床医による多段階的改善と多段階的レビューの項目は、人間の評価に対するLLM-as-a-judgeによって評価される。
LLMの総合得点は54.1/100(クロード・ソネット4.5, 62.5/100)であるが、安全と倫理は依然として低い。
マルチモーダルモデルは全体的な性能が悪く(平均47.5/100; 最高: GPT-5, 54.9/100)、認識力はやや弱い。
- 参考スコア(独自算出の注目度): 10.306067857549875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in medical large language models (LLMs), multimodal models, and agents demand evaluation frameworks that reflect real clinical workflows and safety constraints. We present MedBench v4, a nationwide, cloud-based benchmarking infrastructure comprising over 700,000 expert-curated tasks spanning 24 primary and 91 secondary specialties, with dedicated tracks for LLMs, multimodal models, and agents. Items undergo multi-stage refinement and multi-round review by clinicians from more than 500 institutions, and open-ended responses are scored by an LLM-as-a-judge calibrated to human ratings. We evaluate 15 frontier models. Base LLMs reach a mean overall score of 54.1/100 (best: Claude Sonnet 4.5, 62.5/100), but safety and ethics remain low (18.4/100). Multimodal models perform worse overall (mean 47.5/100; best: GPT-5, 54.9/100), with solid perception yet weaker cross-modal reasoning. Agents built on the same backbones substantially improve end-to-end performance (mean 79.8/100), with Claude Sonnet 4.5-based agents achieving up to 85.3/100 overall and 88.9/100 on safety tasks. MedBench v4 thus reveals persisting gaps in multimodal reasoning and safety for base models, while showing that governance-aware agentic orchestration can markedly enhance benchmarked clinical readiness without sacrificing capability. By aligning tasks with Chinese clinical guidelines and regulatory priorities, the platform offers a practical reference for hospitals, developers, and policymakers auditing medical AI.
- Abstract(参考訳): 医療用大規模言語モデル(LLM)やマルチモーダルモデル、エージェントは、実際の臨床ワークフローや安全性の制約を反映した評価フレームワークを要求している。
我々は、LLM、マルチモーダルモデル、エージェント専用のトラックを備えた、24のプライマリおよび91のセカンダリスペシャルにまたがる70,000以上の専門家によるタスクからなる、全国的なクラウドベースのベンチマークインフラストラクチャであるMedBench v4を紹介する。
500以上の機関から多段階のリファインメントと多段階のレビューを受けており、人間の評価を基準としたLCM-as-a-judgeによってオープンエンドの回答が得られている。
我々は15のフロンティアモデルを評価する。
LLMの平均スコアは54.1/100(クロード・ソネット4.5、62.5/100)であるが、安全性と倫理は低い(18.4/100)。
マルチモーダルモデルは全体的なパフォーマンスが悪く(平均47.5/100; 最高: GPT-5, 54.9/100)、断続的推論は弱い。
同じバックボーン上に構築されたエージェントは、エンド・ツー・エンドのパフォーマンス(平均79.8/100)を大幅に改善し、クロード・ソネット 4.5ベースのエージェントは全体の85.3/100、安全タスクは88.9/100に達した。
したがって、MedBench v4は、ベースモデルのマルチモーダル推論と安全性の持続的なギャップを明らかにし、ガバナンスを意識したエージェントオーケストレーションは、犠牲になることなく、ベンチマークされた臨床準備性を著しく向上させることができることを示した。
タスクを中国の臨床ガイドラインと規制の優先順位に合わせることで、このプラットフォームは、医療AIを監査する病院、開発者、政策立案者に実践的な参照を提供する。
関連論文リスト
- EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - Eir: Thai Medical Large Language Models [0.0]
Eir-8Bは、タイ語での医療タスクの処理精度を高めるために設計された80億のパラメータを持つ大規模な言語モデルである。
人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。
モデルは病院の内部ネットワーク内に展開され、高いセキュリティと高速な処理速度が保証される。
論文 参考訳(メタデータ) (2024-09-13T04:06:00Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。