Fugu-MT 論文翻訳(概要): Counterfactual Stress Testing for Image Classification Models

論文の概要: Counterfactual Stress Testing for Image Classification Models

arxiv url: http://arxiv.org/abs/2605.10894v1
Date: Mon, 11 May 2026 17:36:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:51.041226
Title: Counterfactual Stress Testing for Image Classification Models
Title（参考訳）: 画像分類モデルの非現実的応力試験
Authors: Moritz Stammel, Fabio De Sousa Ribeiro, Raghav Mehta, Mélanie Roschewitz, Ben Glocker,
Abstract要約: 医療画像における深層学習モデルは、新しい臨床環境に配備されるとしばしば失敗する。同様のバリデーションパフォーマンスを持つモデルでは、現実の障害モードが相違する。本稿では,現実的な「もし」な画像を生成する因果生成モデルに基づく非現実的ストレステストフレームワークを提案する。
参考スコア（独自算出の注目度）: 12.520708194901735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning models in medical imaging often fail when deployed in new clinical environments due to distribution shifts in demographics, scanner hardware, or acquisition protocols. A central challenge is underspecification, where models with similar validation performance exhibit divergent real-world failure modes. Although stress testing has emerged as a tool to assess this, current methods typically rely on simple, uninformed perturbations (e.g., brightness or contrast changes), which fail to capture clinically realistic variation and can overestimate robustness. In this work, we introduce a counterfactual stress testing framework based on causal generative models that create realistic "what if" images by intervening on attributes such as scanner type and patient sex while preserving anatomical identity, enabling controlled and semantically meaningful evaluation under targeted distribution shifts. Across two imaging modalities (chest X-ray and mammography), three model architectures, and multiple shift scenarios, we show that counterfactual stress tests provide a substantially more accurate proxy for real out-of-distribution performance than classical perturbations, capturing the direction and relative magnitude of performance changes as well as model ranking. These results suggest that causal generative models can serve as practical simulators for robustness assessment, offering a more reliable basis for evaluating medical AI systems prior to deployment.
Abstract（参考訳）: 医療画像におけるディープラーニングモデルは、人口動態、スキャナーハードウェア、または取得プロトコルの分布シフトによって、新しい臨床環境にデプロイされると失敗することが多い。同様のバリデーションパフォーマンスを持つモデルでは、現実の障害モードが相違する。ストレステストは、これを評価するためのツールとして登場したが、現在の手法は通常、単純で非インフォームな摂動(例えば、明るさやコントラストの変化)に依存しており、臨床的に現実的な変化を捉えることができず、頑健さを過大評価することができる。本研究では,解剖学的特徴を保ちながら,スキャナタイプや患者性などの属性に介入することで,現実的な「もし」な画像を生成する因果生成モデルに基づく非現実的ストレステストフレームワークを提案する。 2つの画像モダリティ(ケストX線とマンモグラフィー)、3つのモデルアーキテクチャ、および複数のシフトシナリオにおいて、反ファクト的ストレステストは、古典的な摂動よりも実際のアウト・オブ・ディストリビューション性能のかなり正確なプロキシを提供し、性能変化の方向と相対的な大きさ、およびモデルランキングを提供することを示した。これらの結果は、因果生成モデルはロバストネス評価のための実用的なシミュレータとして機能し、デプロイメント前に医療AIシステムを評価するための信頼性の高い基盤を提供することを示唆している。

関連論文リスト

Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models [56.29123284262618]
本研究は,視覚基盤モデルの普遍的表現能力を生かして固有データ不確実性を推定することを提案する。モデルのデコード表現の特徴の多様性を分析し,その特異値エネルギーを定量化し,各クラスに対する意味知覚尺度を定義する。この基礎に基づいて,本研究は,(1)潜在的にノイズの多いサンプルを排除し,モデル学習品質を向上させるためのアレータリック不確実性認識データフィルタリング機構,(2)意味認識尺度に基づくトレーニング中にクラス固有の損失重みを適応的に調整する動的不確実性認識最適化戦略,およびトレーニング安定性を向上させるラベル認知機構の2つの不確実性駆動型アプリケーション戦略を設計する。
論文参考訳（メタデータ） (2026-04-13T03:59:54Z)
Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA) 我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-11-15T08:39:22Z)
An autonomous agent for auditing and improving the reliability of clinical AI models [11.225863068085266]
本稿では,ユーザと対話する自己表現型エージェントであるModelAuditorを紹介する。 ModelAuditorはコンテキストに依存し、臨床的に関連する分布シフトをシミュレートする。そして、デプロイ中にパフォーマンスがどの程度低下するかを説明する解釈可能なレポートを生成する。
論文参考訳（メタデータ） (2025-07-08T07:58:52Z)
Trustworthy image-to-image translation: evaluating uncertainty calibration in unpaired training scenarios [0.0]
マンモグラフィスクリーニングは乳がんの検出に有効な方法であり、早期診断を容易にする。ディープニューラルネットワークはいくつかの研究で有効であることが示されているが、その傾向は一般化と誤診のリスクをかなり残している。汎用性を向上させるために、未ペア型ニューラルスタイル転送モデルに基づくデータ拡張スキームが提案されている。 3つのオープンアクセスマンモグラフィーデータセットと1つの非医療画像データセットから解析した画像パッチを用いて、それらの性能を評価する。
論文参考訳（メタデータ） (2025-01-29T11:09:50Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
Epistemic Uncertainty for Generated Image Detection [107.62647907393377]
本稿では,創成モデルの時代において重要なセキュリティ問題に対処することを目的とした,てんかん不確実性によるAI生成画像検出のための新しいフレームワークを提案する。我々の重要な洞察は、トレーニングとテストデータの分布の相違が、機械学習モデルのエピステマティック不確実性空間に顕著に現れていることに起因している。
論文参考訳（メタデータ） (2024-12-08T11:32:25Z)
On the Out of Distribution Robustness of Foundation Models in Medical Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文参考訳（メタデータ） (2023-11-18T14:52:10Z)
Robustness Stress Testing in Medical Image Classification [26.094688963784254]
我々はストレステストを用いて、疾患検出モデルにおけるモデルロバスト性およびサブグループパフォーマンスの相違を評価する。胸部X線画像と皮膚病変画像に対する疾患検出モデルのロバスト性の測定にストレステストを適用した。我々の実験は、いくつかのモデルが他のモデルよりもより堅牢で公平な性能が得られることを示唆している。
論文参考訳（メタデータ） (2023-08-14T02:02:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。