論文の概要: The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks
- arxiv url: http://arxiv.org/abs/2509.18234v2
- Date: Wed, 01 Oct 2025 17:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.762926
- Title: The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks
- Title(参考訳): 準備のイライラ:マルチモーダル医療ベンチマークによる大規模フロンティアモデルのストレステスト
- Authors: Yu Gu, Jingjing Fu, Xiaodong Liu, Jeya Maria Jose Valanarasu, Noel CF Codella, Reuben Tan, Qianchu Liu, Ying Jin, Sheng Zhang, Jinyu Wang, Rui Wang, Lei Song, Guanghui Qin, Naoto Usuyama, Cliff Wong, Hao Cheng, Hohin Lee, Praneeth Sanapathi, Sarah Hilado, Jiang Bian, Javier Alvarez-Valle, Mu Wei, Khalil Malik, Jianfeng Gao, Eric Horvitz, Matthew P Lungren, Hoifung Poon, Paul Vozila,
- Abstract要約: GPT-5のような大型フロンティアモデルは、医学ベンチマークでトップスコアを獲得した。
しかし、ストレステストは別の話をします。
これらのベンチマークは、今日のベンチマークが医学的理解よりもテストのトリックにどのように報いるかを公開しています。
- 参考スコア(独自算出の注目度): 63.892797968132506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large frontier models like GPT-5 now achieve top scores on medical benchmarks. But our stress tests tell a different story. Leading systems often guess correctly even when key inputs like images are removed, flip answers under trivial prompt changes, and fabricate convincing yet flawed reasoning. These aren't glitches; they expose how today's benchmarks reward test-taking tricks over medical understanding. We evaluate six flagship models across six widely used benchmarks and find that high leaderboard scores hide brittleness and shortcut learning. Through clinician-guided rubric evaluation, we show that benchmarks vary widely in what they truly measure yet are treated interchangeably, masking failure modes. We caution that medical benchmark scores do not directly reflect real-world readiness. If we want AI to earn trust in healthcare, we must demand more than leaderboard wins and must hold systems accountable for robustness, sound reasoning, and alignment with real medical demands.
- Abstract(参考訳): GPT-5のような大型フロンティアモデルは、医学ベンチマークでトップスコアを獲得した。
しかし、ストレステストでは別の話が語られています。
リードシステムは、画像のような重要な入力が削除されたとしても、しばしば正しく推測する。
これらのベンチマークは、今日のベンチマークが医学的理解よりもテストのトリックにどのように報いるかを公開しています。
6つの広く使用されているベンチマークで6つのフラッグシップモデルを評価し、高いリーダボードスコアが脆さとショートカット学習を隠蔽していることを発見した。
臨床医が指導するルーリック評価を通じて、ベンチマークは本当に測定されるものによって大きく異なることを示し、障害モードをマスキングする。
医療ベンチマークのスコアは、実際の準備性を直接反映していないことを注意する。
AIが医療への信頼を得るためには、リーダーボード以上のものを要求し、堅牢性、健全な推論、実際の医療要求との整合性に責任を持つシステムを保持する必要がある。
関連論文リスト
- MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Medical Large Language Model Benchmarks Should Prioritize Construct Validity [9.453444826672474]
医学大言語モデル(LLMs)の研究は、臨床知識の符号化から医師のような推論に至るまで、大胆な主張をすることが多い。
しかし、どうやって真の進歩をリーダーボードのフレックスから切り離すのか?
医療用LLMベンチマークは、その構成妥当性を実証的に評価すべきである(そして実際に可能である)。
論文 参考訳(メタデータ) (2025-03-12T05:08:02Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。
このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。
私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文 参考訳(メタデータ) (2024-11-06T05:09:34Z) - MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering [24.258546825446324]
大規模言語モデル (LLM) は、医学的質問応答ベンチマークにおいて優れたパフォーマンスを達成している。
我々は、"MedFuzzed"ベンチマークでのパフォーマンスの使用方法と、個々の攻撃の成功例を示します。
論文 参考訳(メタデータ) (2024-06-03T18:15:56Z) - When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [9.751405901938895]
既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。
一般的なマルチチョイス質問ベンチマーク(MMLUなど)では、選択の順序や解答の選択方法の変更など、ベンチマークに対する小さな摂動が最大8位までランクが変更されることが示されている。
論文 参考訳(メタデータ) (2024-02-01T19:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。