論文の概要: Metrics that matter: Evaluating image quality metrics for medical image generation
- arxiv url: http://arxiv.org/abs/2505.07175v1
- Date: Mon, 12 May 2025 01:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.240011
- Title: Metrics that matter: Evaluating image quality metrics for medical image generation
- Title(参考訳): 重要な指標:医用画像生成のための画像品質指標の評価
- Authors: Yash Deo, Yan Jia, Toni Lassila, William A. P. Smith, Tom Lawton, Siyuan Kang, Alejandro F. Frangi, Ibrahim Habli,
- Abstract要約: 本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
- 参考スコア(独自算出の注目度): 48.85783422900129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating generative models for synthetic medical imaging is crucial yet challenging, especially given the high standards of fidelity, anatomical accuracy, and safety required for clinical applications. Standard evaluation of generated images often relies on no-reference image quality metrics when ground truth images are unavailable, but their reliability in this complex domain is not well established. This study comprehensively assesses commonly used no-reference image quality metrics using brain MRI data, including tumour and vascular images, providing a representative exemplar for the field. We systematically evaluate metric sensitivity to a range of challenges, including noise, distribution shifts, and, critically, localised morphological alterations designed to mimic clinically relevant inaccuracies. We then compare these metric scores against model performance on a relevant downstream segmentation task, analysing results across both controlled image perturbations and outputs from different generative model architectures. Our findings reveal significant limitations: many widely-used no-reference image quality metrics correlate poorly with downstream task suitability and exhibit a profound insensitivity to localised anatomical details crucial for clinical validity. Furthermore, these metrics can yield misleading scores regarding distribution shifts, e.g. data memorisation. This reveals the risk of misjudging model readiness, potentially leading to the deployment of flawed tools that could compromise patient safety. We conclude that ensuring generative models are truly fit for clinical purpose requires a multifaceted validation framework, integrating performance on relevant downstream tasks with the cautious interpretation of carefully selected no-reference image quality metrics.
- Abstract(参考訳): 合成医用画像の生成モデルを評価することは、特に臨床応用に必要な忠実度、解剖学的精度、安全性の高い基準を考えると、非常に難しい。
生成画像の標準評価は、地上の真理画像が利用できない場合、基準画像の品質基準に依存することが多いが、この複雑な領域における信頼性は十分に確立されていない。
本研究は、腫瘍や血管画像を含む脳MRIデータを用いて、一般的に使用されている非参照画像品質指標を包括的に評価し、現場の代表的な例である。
本研究は,騒音,分布変化,および臨床的に関連づけられた不正確性を模倣した局所的な形態変化を含む,様々な課題に対する計量感度を系統的に評価する。
次に、これらの測定値と、関連する下流セグメンテーションタスクのモデル性能を比較し、制御された画像摂動と異なる生成モデルアーキテクチャからの出力を解析する。
画像品質指標の多くは下流のタスク適合性と相関が低く, 臨床応用に欠かせない局所解剖学的詳細に非常に敏感である。
さらに、これらのメトリクスは、例えばデータの暗記など、分散シフトに関する誤解を招くスコアを得ることができる。
これは、モデル準備の誤判断のリスクを明らかにし、患者の安全性を損なう可能性のある欠陥のあるツールのデプロイにつながる可能性がある。
我々は,生成モデルが臨床目的に真に適合することを保証するには多面的検証フレームワークが必要であると結論付け,関連する下流タスクのパフォーマンスと慎重に選択された非参照画像品質指標の慎重な解釈を統合する。
関連論文リスト
- IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration [0.46904601975060667]
IMPACT (Image Metric with Pretrained Model-Agnostic Comparison for Transmodality registration) は、マルチモーダル画像登録のための新しい類似度尺度である。
大規模事前訓練セグメンテーションモデルから抽出した深い特徴の比較に基づいて意味的類似度尺度を定義する。
胸椎CT/CBCTおよび骨盤MR/CTデータセットを含む5つの難易度3次元登録課題について検討した。
論文 参考訳(メタデータ) (2025-03-31T14:08:21Z) - Trustworthy image-to-image translation: evaluating uncertainty calibration in unpaired training scenarios [0.0]
マンモグラフィスクリーニングは乳がんの検出に有効な方法であり、早期診断を容易にする。
ディープニューラルネットワークはいくつかの研究で有効であることが示されているが、その傾向は一般化と誤診のリスクをかなり残している。
汎用性を向上させるために、未ペア型ニューラルスタイル転送モデルに基づくデータ拡張スキームが提案されている。
3つのオープンアクセスマンモグラフィーデータセットと1つの非医療画像データセットから解析した画像パッチを用いて、それらの性能を評価する。
論文 参考訳(メタデータ) (2025-01-29T11:09:50Z) - A Unified Model for Compressed Sensing MRI Across Undersampling Patterns [69.19631302047569]
様々な計測アンサンプパターンと画像解像度に頑健な統合MRI再構成モデルを提案する。
我々のモデルは、拡散法よりも600$times$高速な推論で、最先端CNN(End-to-End VarNet)の4dBでSSIMを11%改善し、PSNRを4dB改善する。
論文 参考訳(メタデータ) (2024-10-05T20:03:57Z) - Five Pitfalls When Assessing Synthetic Medical Images with Reference Metrics [0.9582978458237521]
2つのイメージを客観的かつ定量的に比較するために、参照メトリクスが開発された。
基準指標の相関と品質に対する人間の知覚は、様々な種類の歪みに対して強く異なる。
予想外の,おそらく望ましくない基準スコアを示す5つの落とし穴を選択した。
論文 参考訳(メタデータ) (2024-08-12T11:48:57Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Explainable Image Quality Assessment for Medical Imaging [0.0]
質の悪い医療画像は誤診につながる可能性がある。
本稿では,説明可能な画像品質評価システムを提案し,その考え方を2つの異なる目的に対して検証する。
本研究では,サリエンシ検出器の忠実度を測定するために,様々な手法を適用した。
我々は,NormGradがObject-CXRで0.853点,LVOTデータセットで0.611点,繰り返しポイントゲームで0.853点に達することで,他のサリエンシ検出器よりも顕著に向上したことを示す。
論文 参考訳(メタデータ) (2023-03-25T14:18:39Z) - Negligible effect of brain MRI data preprocessing for tumor segmentation [36.89606202543839]
我々は3つの公開データセットの実験を行い、ディープニューラルネットワークにおける異なる前処理ステップの効果を評価する。
その結果、最も一般的な標準化手順は、ネットワーク性能に何の価値も与えないことが示されている。
画像の規格化に伴う信号分散の低減のため,画像強度正規化手法はモデル精度に寄与しない。
論文 参考訳(メタデータ) (2022-04-11T17:29:36Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。