論文の概要: Uncovering Overconfident Failures in CXR Models via Augmentation-Sensitivity Risk Scoring
- arxiv url: http://arxiv.org/abs/2510.01683v1
- Date: Thu, 02 Oct 2025 05:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.007662
- Title: Uncovering Overconfident Failures in CXR Models via Augmentation-Sensitivity Risk Scoring
- Title(参考訳): 拡張感度リスクスコアリングによるCXRモデルの過信欠陥の発見
- Authors: Han-Jay Shu, Wei-Ning Chiu, Shun-Ting Chang, Meng-Ping Huang, Takeshi Tohyama, Ahram Han, Po-Chih Kuo,
- Abstract要約: 胸部X線写真(CXR)症例を同定するために,ASRS(Augmentation-sensitive risk score)フレームワークを提案する。
ASRSのスコアは、サンプルを安定四成分に成層化し、非常に敏感なケースではリコールがかなり低い。
ASRSは、選択的な予測と臨床レビューのためのラベルなしの手段を提供し、医療AIの公正性と安全性を改善している。
- 参考スコア(独自算出の注目度): 1.9837702647603577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models achieve strong performance in chest radiograph (CXR) interpretation, yet fairness and reliability concerns persist. Models often show uneven accuracy across patient subgroups, leading to hidden failures not reflected in aggregate metrics. Existing error detection approaches -- based on confidence calibration or out-of-distribution (OOD) detection -- struggle with subtle within-distribution errors, while image- and representation-level consistency-based methods remain underexplored in medical imaging. We propose an augmentation-sensitivity risk scoring (ASRS) framework to identify error-prone CXR cases. ASRS applies clinically plausible rotations ($\pm 15^\circ$/$\pm 30^\circ$) and measures embedding shifts with the RAD-DINO encoder. Sensitivity scores stratify samples into stability quartiles, where highly sensitive cases show substantially lower recall ($-0.2$ to $-0.3$) despite high AUROC and confidence. ASRS provides a label-free means for selective prediction and clinician review, improving fairness and safety in medical AI.
- Abstract(参考訳): 深層学習モデルは胸部X線写真(CXR)の解釈において高い性能を達成するが、公平さと信頼性の懸念は持続する。
モデルはしばしば患者サブグループ間で不均一な精度を示し、集約されたメトリクスに反映されない隠れた失敗につながります。
既存のエラー検出アプローチ -- 信頼度校正やアウト・オブ・ディストリビューション(OOD)検出に基づく -- は、微妙な内部分布エラーに苦慮する一方で、画像および表現レベルの一貫性に基づく手法は、医用画像において未熟なままである。
そこで本研究では,CXR症例の誤検出のためのASRS(Augmentation-sensitive risk score)フレームワークを提案する。
ASRSは臨床的に可塑性回転($\pm 15^\circ$/$\pm 30^\circ$)を適用し、RAD-DINOエンコーダとの埋め込みシフトを測定する。
感度スコアは、高いAUROCと自信にもかかわらず、非常に敏感なケースではリコールが大幅に低い(-0.2$から$-0.3$)。
ASRSは、選択的な予測と臨床レビューのためのラベルなしの手段を提供し、医療AIの公正性と安全性を改善している。
関連論文リスト
- AT-CXR: Uncertainty-Aware Agentic Triage for Chest X-rays [12.843444405498404]
胸部X線に対する不確実性認識剤AT-CXRについて紹介する。
システムは、ケースごとの信頼度と分散適合度を推定し、次に、自動決定を発行するための段階的なポリシーに従う。
同一の入力と動作を共有する2つのルータの設計を評価する。
論文 参考訳(メタデータ) (2025-08-26T14:33:09Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - GRASP-PsONet: Gradient-based Removal of Spurious Patterns for PsOriasis Severity Classification [0.0]
本稿では,突発的な相関を導入し,問題のあるトレーニングイメージを自動的にフラグするフレームワークを提案する。
フラグ付き画像の8.2%は、保持されたテストセットでモデルAUC-ROCを5%(85%から90%)改善する。
2人の皮膚科医によって評価された訓練データのサブセットに適用した場合、この方法は、レイター間不一致の90%以上を識別する。
論文 参考訳(メタデータ) (2025-06-27T03:42:09Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Statistical Management of the False Discovery Rate in Medical Instance Segmentation Based on Conformal Risk Control [2.4578723416255754]
インスタンスセグメンテーションは、病変、腫瘍、解剖学的構造の正確な局在化とデライン化を可能にすることで、医療画像解析において重要な役割を担っている。
Mask R-CNNやBlendMaskのようなディープラーニングモデルは目覚ましい進歩を遂げているが、リスクの高い医療シナリオにおけるそれらの応用は、信頼性の校正の問題によって制限されている。
本稿では,この課題に対処するために,共形予測理論に基づく堅牢な品質制御フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-06T13:31:19Z) - Inadequacy of common stochastic neural networks for reliable clinical
decision support [0.4262974002462632]
医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。
しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。
本研究は臨床応用における信頼性について考察する。
論文 参考訳(メタデータ) (2024-01-24T18:49:30Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。