論文の概要: MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs
- arxiv url: http://arxiv.org/abs/2510.01691v1
- Date: Thu, 02 Oct 2025 05:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.016412
- Title: MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs
- Title(参考訳): MedQ-Bench:MLLMにおける医用画像品質評価能力の評価と探索
- Authors: Jiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu,
- Abstract要約: MedQ-Benchはマルチモーダル大言語モデル(MLLM)を用いた医療画像品質評価のための総合的なベンチマークである。
ベンチマークは5つの画像モダリティと40以上の品質特性にまたがっており、合計2,600のパーセプティブクエリと708の推論アセスメントがある。
最新のMLLM14例について評価したところ, 既往ながら不安定な知覚能力, 推論能力を示し, 信頼性に乏しい臨床応用が得られた。
- 参考スコア(独自算出の注目度): 39.33140500353129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Image Quality Assessment (IQA) serves as the first-mile safety gate for clinical AI, yet existing approaches remain constrained by scalar, score-based metrics and fail to reflect the descriptive, human-like reasoning process central to expert evaluation. To address this gap, we introduce MedQ-Bench, a comprehensive benchmark that establishes a perception-reasoning paradigm for language-based evaluation of medical image quality with Multi-modal Large Language Models (MLLMs). MedQ-Bench defines two complementary tasks: (1) MedQ-Perception, which probes low-level perceptual capability via human-curated questions on fundamental visual attributes; and (2) MedQ-Reasoning, encompassing both no-reference and comparison reasoning tasks, aligning model evaluation with human-like reasoning on image quality. The benchmark spans five imaging modalities and over forty quality attributes, totaling 2,600 perceptual queries and 708 reasoning assessments, covering diverse image sources including authentic clinical acquisitions, images with simulated degradations via physics-based reconstructions, and AI-generated images. To evaluate reasoning ability, we propose a multi-dimensional judging protocol that assesses model outputs along four complementary axes. We further conduct rigorous human-AI alignment validation by comparing LLM-based judgement with radiologists. Our evaluation of 14 state-of-the-art MLLMs demonstrates that models exhibit preliminary but unstable perceptual and reasoning skills, with insufficient accuracy for reliable clinical use. These findings highlight the need for targeted optimization of MLLMs in medical IQA. We hope that MedQ-Bench will catalyze further exploration and unlock the untapped potential of MLLMs for medical image quality evaluation.
- Abstract(参考訳): 医療画像品質評価(IQA)は、臨床AIの1マイル安全ゲートとして機能するが、既存のアプローチはスカラーでスコアベースのメトリクスに制約され、専門家の評価の中心となる記述的で人間的な推論プロセスの反映に失敗している。
このギャップに対処するため,MedQ-Benchは,MLLM(Multi-modal Large Language Models)を用いた言語による医用画像品質評価のための知覚推論パラダイムを確立するための総合ベンチマークである。
MedQ-Bench は,(1) 基本的視覚特性に関する人間計算的質問による低レベルの知覚能力を探索する MedQ-Perception ,(2) 無参照・比較推論タスクを包含する MedQ-Reasoning の2つの補完的タスクを定義した。
このベンチマークは、5つの画像モダリティと40以上の品質特性、合計2,600の知覚クエリと708の推論アセスメント、認証された臨床取得、物理ベースの再構成によるシミュレーションされた劣化の画像、AI生成画像を含む多様な画像ソースをカバーする。
推論能力を評価するために,モデル出力を4つの相補的軸に沿って評価する多次元判定プロトコルを提案する。
さらに,LSMに基づく判断と放射線学者との比較により,厳密な人間-AIアライメントの検証を行う。
最新のMLLM14例について評価したところ, 既往ながら不安定な知覚能力, 推論能力を示し, 信頼性に乏しい臨床応用が得られた。
これらの結果は,医療用IQAにおけるMLLMの最適化の必要性を浮き彫りにした。
我々は、MedQ-Benchが、医療画像の品質評価のためにMLLMの未完成の可能性を解き放ち、さらなる探索を触媒することを期待している。
関連論文リスト
- Image Quality Assessment for Machines: Paradigm, Large-scale Database, and Models [60.356842878501254]
マシンビジョンシステム(MVS)は、視覚の悪条件下での性能劣化に対して本質的に脆弱である。
画像劣化がMVS性能に与える影響を定量的に評価するマシン中心画像品質評価(MIQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-27T13:07:24Z) - MDIQA: Unified Image Quality Assessment for Multi-dimensional Evaluation and Restoration [76.94293572477379]
本稿では,多次元画像品質評価(MDIQA)フレームワークを提案する。
我々は,5つの技術次元と4つの審美次元を含む,様々な知覚次元にわたる画像品質をモデル化する。
MDIQAモデルの準備が整うと、画像復元(IR)モデルの柔軟なトレーニングのためにデプロイできる。
論文 参考訳(メタデータ) (2025-08-23T03:17:14Z) - MedIQA: A Scalable Foundation Model for Prompt-Driven Medical Image Quality Assessment [26.185840831950063]
しかし、既存のIQA法は、様々なモダリティや臨床シナリオにまたがる一般化に苦慮している。
MedIQAは,画像次元,モダリティ,解剖学的領域,タイプにおける可変性を扱うために設計された,医用IQAの最初の包括的基盤モデルである。
論文 参考訳(メタデータ) (2025-07-25T07:02:47Z) - PhotIQA: A photoacoustic image data set with image quality ratings [7.753621023890248]
PhotIQAは、5つの品質特性の2人の専門家によって評価された1134個の再構成光音響画像からなるデータセットである。
ベースライン実験の結果,HaarPSI$_med$は品質評価と相関してSSIMを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-07-04T11:06:54Z) - MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning [24.9872402922819]
既存の医療用VQAベンチマークは、主にシングルイメージ分析に焦点を当てている。
医療用VQAにおけるマルチイメージ推論を明示的に評価する最初のベンチマークであるMedFrameQAを紹介する。
論文 参考訳(メタデータ) (2025-05-22T17:46:11Z) - AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。
AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文 参考訳(メタデータ) (2025-05-17T07:44:54Z) - AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images [58.87047247313503]
本稿では,人体画像の品質評価のための大規模ベンチマークAGHI-QAを紹介する。
データセットは、400の慎重に作成されたテキストプロンプトから生成される4,000の画像で構成され、10の最先端のT2Iモデルを使用している。
我々は,視覚的品質スコア,テキスト画像対応スコア,可視および歪んだ身体部分ラベルを含む多次元アノテーションの収集のために,体系的な主観的研究を行う。
論文 参考訳(メタデータ) (2025-04-30T04:36:56Z) - MD-IQA: Learning Multi-scale Distributed Image Quality Assessment with
Semi Supervised Learning for Low Dose CT [6.158876574189994]
画像品質評価(IQA)は放射線線量最適化と新しい医用イメージング技術開発において重要な役割を担っている。
最近の深層学習に基づくアプローチは、強力なモデリング能力と医療IQAの可能性を示している。
本稿では,出力分布を制約して品質スコアを予測するため,マルチスケール分布回帰手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T09:33:33Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z) - Image Quality Assessment for Magnetic Resonance Imaging [4.05136808278614]
画像品質評価(IQA)アルゴリズムは、画像品質に対する人間の認識を再現することを目的としている。
我々は、MRIに関連する問題を解決するために訓練されたニューラルネットワークモデルの出力を使用する。
7人の訓練された放射線学者が歪んだ画像を評価し、その判断は35の異なる画像品質指標と相関した。
論文 参考訳(メタデータ) (2022-03-15T11:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。