論文の概要: MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations
- arxiv url: http://arxiv.org/abs/2603.07769v1
- Date: Sun, 08 Mar 2026 19:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.204221
- Title: MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations
- Title(参考訳): MedQ-Deg:医療画像品質劣化におけるMLLMの評価のための多次元ベンチマーク
- Authors: Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、医療画像が必然的に様々な品質劣化を被る現実的な臨床環境において課題に直面している。
既存のベンチマークでは,(1)医用画像品質勾配における大規模多次元評価の欠如,(2)系統的信頼性校正分析の欠如,の2つの重要な限界が示されている。
MedQ-Degは医用MLLMを画像品質劣化下で総合的に評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 33.6363892734003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite impressive performance on standard benchmarks, multimodal large language models (MLLMs) face critical challenges in real-world clinical environments where medical images inevitably suffer various quality degradations. Existing benchmarks exhibit two key limitations: (1) absence of large-scale, multidimensional assessment across medical image quality gradients and (2) no systematic confidence calibration analysis. To address these gaps, we present MedQ-Deg, a comprehensive benchmark for evaluating medical MLLMs under image quality degradations. MedQ-Deg provides multi-dimensional evaluation spanning 18 distinct degradation types, 30 fine-grained capability dimensions, and 7 imaging modalities, with 24,894 question-answer pairs. Each degradation is implemented at 3 severity degrees, calibrated by expert radiologists. We further introduce Calibration Shift metric, which quantifies the gap between a model's perceived confidence and actual performance to assess metacognitive reliability under degradation. Our comprehensive evaluation of 40 mainstream MLLMs reveals several critical findings: (1) overall model performance degrades systematically as degradation severity increases, (2) models universally exhibit the AI Dunning-Kruger Effect, maintaining inappropriately high confidence despite severe accuracy collapse, and (3) models display markedly differentiated behavioral patterns across capability dimensions, imaging modalities, and degradation types. We hope MedQ-Deg drives progress toward medical MLLMs that are robust and trustworthy in real clinical practice.
- Abstract(参考訳): 標準的なベンチマークでは顕著な性能を示したが、マルチモーダル・大規模言語モデル(MLLM)は、医療画像が必然的に様々な品質劣化を被る現実の臨床環境において、重要な課題に直面している。
既存のベンチマークでは,(1)医用画像品質勾配の大規模多次元評価の欠如,(2)系統的信頼性校正分析の欠如,の2つの重要な限界が示されている。
これらのギャップに対処するため,画像品質劣化下での医療MLLM評価のための総合ベンチマークであるMedQ-Degを提案する。
MedQ-Degは18の異なる分解タイプ、30のきめ細かい機能ディメンション、7つの画像モダリティにまたがる多次元評価を提供する。
それぞれの分解は3度の重度で実施され、専門の放射線学者によって校正される。
さらに、モデルが認識する信頼度と実際の性能のギャップを定量化して、劣化下でのメタ認知的信頼性を評価するキャリブレーションシフト指標についても紹介する。
総合的な40のMLLMの評価結果から, 総合モデル性能は, 劣化度の増加とともに系統的に低下し, 2)AIダンニング・クルーガー効果を普遍的に発現し, 精度の低下にもかかわらず不適切な信頼性を維持したモデル, (3) 機能次元, 画像のモダリティ, 劣化型を著しく区別した行動パターンを表示するモデルなど, 重要な結果が得られた。
MedQ-Degは、実際の臨床実践において堅牢で信頼性の高い医療MLLMに向けた進歩を期待する。
関連論文リスト
- MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs [39.33140500353129]
MedQ-Benchはマルチモーダル大言語モデル(MLLM)を用いた医療画像品質評価のための総合的なベンチマークである。
ベンチマークは5つの画像モダリティと40以上の品質特性にまたがっており、合計2,600のパーセプティブクエリと708の推論アセスメントがある。
最新のMLLM14例について評価したところ, 既往ながら不安定な知覚能力, 推論能力を示し, 信頼性に乏しい臨床応用が得られた。
論文 参考訳(メタデータ) (2025-10-02T05:42:00Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Image Quality Assessment for Machines: Paradigm, Large-scale Database, and Models [60.356842878501254]
マシンビジョンシステム(MVS)は、視覚の悪条件下での性能劣化に対して本質的に脆弱である。
画像劣化がMVS性能に与える影響を定量的に評価するマシン中心画像品質評価(MIQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-27T13:07:24Z) - On the Robustness of Medical Vision-Language Models: Are they Truly Generalizable? [0.9626666671366837]
我々は、複数の医療画像データセットに複数の摂動を適用した汚職ベンチマークであるMediMeta-Cを紹介する。
本稿では,事前訓練されたMVLMの視覚的エンコーダ適応であるRobustMedCLIPを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:08:31Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images [58.87047247313503]
本稿では,人体画像の品質評価のための大規模ベンチマークAGHI-QAを紹介する。
データセットは、400の慎重に作成されたテキストプロンプトから生成される4,000の画像で構成され、10の最先端のT2Iモデルを使用している。
我々は,視覚的品質スコア,テキスト画像対応スコア,可視および歪んだ身体部分ラベルを含む多次元アノテーションの収集のために,体系的な主観的研究を行う。
論文 参考訳(メタデータ) (2025-04-30T04:36:56Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。