論文の概要: Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks
- arxiv url: http://arxiv.org/abs/2509.22258v1
- Date: Fri, 26 Sep 2025 12:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.413409
- Title: Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks
- Title(参考訳): 分類精度を超えて:Neural-MedBenchとより深い推論ベンチマークの必要性
- Authors: Miao Jing, Mengting Jia, Junling Lin, Zhongxia Shen, Lijun Wang, Yuanyuan Peng, Huan Gao, Mingkun Xu, Shangyang Li,
- Abstract要約: 近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。
我々はニューラルメドベンチ(Neural-MedBench)について紹介する。これは、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
- 参考スコア(独自算出の注目度): 21.203358914772465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have achieved remarkable performance on standard medical benchmarks, yet their true clinical reasoning ability remains unclear. Existing datasets predominantly emphasize classification accuracy, creating an evaluation illusion in which models appear proficient while still failing at high-stakes diagnostic reasoning. We introduce Neural-MedBench, a compact yet reasoning-intensive benchmark specifically designed to probe the limits of multimodal clinical reasoning in neurology. Neural-MedBench integrates multi-sequence MRI scans, structured electronic health records, and clinical notes, and encompasses three core task families: differential diagnosis, lesion recognition, and rationale generation. To ensure reliable evaluation, we develop a hybrid scoring pipeline that combines LLM-based graders, clinician validation, and semantic similarity metrics. Through systematic evaluation of state-of-the-art VLMs, including GPT-4o, Claude-4, and MedGemma, we observe a sharp performance drop compared to conventional datasets. Error analysis shows that reasoning failures, rather than perceptual errors, dominate model shortcomings. Our findings highlight the necessity of a Two-Axis Evaluation Framework: breadth-oriented large datasets for statistical generalization, and depth-oriented, compact benchmarks such as Neural-MedBench for reasoning fidelity. We release Neural-MedBench at https://neuromedbench.github.io/ as an open and extensible diagnostic testbed, which guides the expansion of future benchmarks and enables rigorous yet cost-effective assessment of clinically trustworthy AI.
- Abstract(参考訳): 近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。
既存のデータセットは主に分類精度を強調しており、高い精度の診断推論に失敗しながら、モデルが熟達しているように見える評価錯覚を生み出している。
我々はニューラルメドベンチ(Neural-MedBench)を紹介した。ニューラルメドベンチ(Neural-MedBench)は、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
Neural-MedBenchは、マルチシーケンスMRIスキャン、構造化された電子健康記録、臨床ノートを統合し、差分診断、病変認識、合理的生成の3つのコアタスクファミリを含んでいる。
信頼性の高い評価を実現するため,LLMに基づく採点器,臨床検定,意味的類似度を併用したハイブリッドスコアリングパイプラインを開発した。
GPT-4o,Claude-4,MedGemmaなどの最先端VLMの系統的評価により,従来のデータセットと比較して高い性能低下が観察された。
エラー分析は、知覚的エラーではなく、推論失敗がモデルの欠点を支配していることを示している。
統計的一般化のための幅指向の大規模データセットと、忠実性の推論のためのNeural-MedBenchのような、奥行き指向のコンパクトなベンチマークである。
我々はNeural-MedBenchをオープンで拡張可能な診断テストベッドとしてhttps://neuromedbench.github.io/でリリースします。
関連論文リスト
- AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - CutisAI: Deep Learning Framework for Automated Dermatology and Cancer Screening [0.0]
本稿では,統計学習理論,トポロジカルデータ解析,ベイズ変換推論を組み合わせたコンフォーマルベイズ皮膚学(CBDC)フレームワークを提案する。
CBDCは分類精度を達成し、臨床の観点から解釈可能な校正された予測を生成する。
本研究は, 深部皮膚科診断における理論的, 実践的な飛躍であり, 機械学習理論の臨床応用インターフェースを開拓する。
論文 参考訳(メタデータ) (2026-01-05T21:29:08Z) - NEURO-GUARD: Neuro-Symbolic Generalization and Unbiased Adaptive Routing for Diagnostics -- Explainable Medical AI [0.6345042809319409]
NEURO-GUARDは、視覚変換器(ViT)と言語駆動推論を統合して性能を向上させる知識誘導型視覚フレームワークである。
NEURO-GUARDは、大規模言語モデル(LLM)が医療画像の特徴抽出コードを反復的に生成し、評価し、洗練する自己検証のために、検索拡張生成(RAG)機構を採用している。
4つのベンチマークデータセットで糖尿病網膜症分類の実験により、NEURO-GUARDはViTのみのベースラインで精度を6.2%改善し、ドメインの一般化で5%向上した。
論文 参考訳(メタデータ) (2025-12-20T02:32:15Z) - Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models [15.530083855947987]
我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。
Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。
様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
論文 参考訳(メタデータ) (2025-10-21T05:18:18Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Challenges in Deep Learning-Based Small Organ Segmentation: A Benchmarking Perspective for Medical Research with Limited Datasets [1.2648105980808475]
本研究では,最先端のディープラーニングセグメンテーションモデルの体系的評価について検討する。
その結果, モデル性能はデータ分割に非常に敏感であり, 統計的ノイズによる差は, 真のアルゴリズム上の優越性よりも小さいことがわかった。
論文 参考訳(メタデータ) (2025-09-07T01:54:20Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Benchmarking and Explaining Deep Learning Cortical Lesion MRI Segmentation in Multiple Sclerosis [28.192924379673862]
多発性硬化症(MS)における生体マーカーとしての皮質病変(CL)の出現
本稿では,MRIにおけるCL検出とセグメンテーションの総合ベンチマークを提案する。
医療画像のセグメンテーションのために設計された自己構成のnnU-Netフレームワークを利用し、CL検出の改善に適した適応を提案する。
論文 参考訳(メタデータ) (2025-07-16T09:56:11Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - NeuroMoE: A Transformer-Based Mixture-of-Experts Framework for Multi-Modal Neurological Disorder Classification [3.5313393560458826]
Deep Learningは最近、診断を助けるために医療データから意味のあるパターンを抽出する強力なツールとして登場した。
神経疾患を分類するための新しいトランスフォーマーベースのMixture-of-Experts(MoE)フレームワークを提案する。
我々のフレームワークは82.47%の検証精度を達成し、ベースライン法を10%以上上回っている。
論文 参考訳(メタデータ) (2025-06-17T20:40:06Z) - REMEMBER: Retrieval-based Explainable Multimodal Evidence-guided Modeling for Brain Evaluation and Reasoning in Zero- and Few-shot Neurodegenerative Diagnosis [6.446611581074913]
検索型マルチモーダル誘導型脳評価・推論モデルREMEMBERについて紹介する。
REMEMBERは、脳MRIスキャンを用いたゼロショットと少数ショットのアルツハイマーの診断を容易にする新しい機械学習フレームワークである。
実験結果から,REMEMBERはゼロショットと少数ショットの堅牢な性能を実現することが示された。
論文 参考訳(メタデータ) (2025-04-12T22:06:15Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。