論文の概要: RISED: A Pre-Deployment Safety Evaluation Framework for Clinical AI Decision-Support Systems
- arxiv url: http://arxiv.org/abs/2605.12895v1
- Date: Wed, 13 May 2026 02:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.758936
- Title: RISED: A Pre-Deployment Safety Evaluation Framework for Clinical AI Decision-Support Systems
- Title(参考訳): RISED: 臨床AI意思決定支援システムのためのデプロイ前安全性評価フレームワーク
- Authors: Rohith Reddy Bellibatlu,
- Abstract要約: 本稿では,信頼性,指数性,感度,等価性,展開性に関する5次元事前デプロイ評価を提案する。
RISEDはオープンソースのPythonパッケージとしてリリースされ、既存の臨床AIレポート標準の量的検証を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aggregate accuracy metrics dominate the evaluation of clinical AI decision-support systems but do not detect deployment-phase failures of input reliability, subgroup equity, threshold sensitivity, or operational feasibility. We propose the RISED Framework: a five-dimension pre-deployment evaluation covering Reliability, Inclusivity, Sensitivity, Equity, and Deployability, in which each dimension is operationalized through formal sub-criteria, pre-specified pass/fail thresholds, and bias-corrected accelerated (BCa) bootstrap 95% confidence intervals combined under a Holm-Bonferroni family-wise error correction. A central demonstration is that a classifier satisfying conventional high-discrimination benchmarks can simultaneously fail input-encoding stability and threshold-shift sensitivity checks, while subgroup AUC parity remains statistically inconclusive, pointing to deployment risks that aggregate evaluation alone cannot detect. We validate this differential pass/fail pattern on a synthetic cohort and three publicly available real-world cohorts spanning 35 years of clinical data vintage, from a 1980s cardiology dataset to a 2024 nationally representative health survey, where failing dimensions differ across cohorts, providing preliminary evidence of construct validity. The Equity dimension is reframed as a proxy-dependence diagnostic rather than a stand-alone gate: any need-based fairness verdict computed against a utilization-derived proxy carries a construct-validity problem the framework surfaces explicitly, triggering a procurement requirement for an outcome-independent need measure before the gate is binding. RISED is released as an open-source Python package that supplies the quantitative verdicts existing clinical AI reporting standards require, providing a principled gateway between in-silico model validation and silent-trial clinical evaluation.
- Abstract(参考訳): 集約精度メトリクスは、臨床AI意思決定支援システムの評価を支配しているが、入力信頼性、サブグループエクイティ、しきい値感度、運用可能性のデプロイフェーズ障害は検出しない。
本稿では, 信頼性, 感度, 等価性, 展開性に関する5次元事前デプロイ評価を行うRISEDフレームワークを提案する。各次元は, 形式的サブ基準, あらかじめ規定されたパス/フェイルしきい値, バイアス補正促進(BCa)ブートストラップにより, 95%の信頼区間をホルム・ボンフェロニの家庭的誤り訂正に組み合わせて操作する。
従来の高評価ベンチマークを満たす分類器は、入力エンコード安定性としきい値シフト感度チェックを同時に失敗させることができる一方で、サブグループAUCパリティは統計的に決定的ではなく、総合的な評価だけでは検出できないデプロイメントリスクを指し示している。
この差動パス/フェイルパターンを,1980年代の心臓医学データセットから2024年の全国的に代表される健康調査まで,35年間の臨床データビンテージにまたがる3つの公用実世界のコホートと合成コホート上で検証した。
Equity次元は、スタンドアローンゲートではなく、プロキシ依存診断として再編成される: 利用由来のプロキシに対して計算された要求ベースの公正性判定は、フレームワークが明示的に表面化する構成-妥当性の問題を持ち、ゲートが結合される前に、結果非依存の要求尺度の調達要求が引き起こされる。
RISEDはオープンソースのPythonパッケージとしてリリースされ、既存の臨床AIレポート標準の量的検証を提供する。
関連論文リスト
- Towards Trustworthy Depression Estimation via Disentangled Evidential Learning [50.22167852149165]
EviDepはうつ病の重症度を共同で定量化する明らかな学習フレームワークである。
EviDepは、堅牢な証拠合成を保証するために厳密な情報整合性を強制する。
最先端の予測精度と優れた不確実性校正を実現し、信頼できる臨床スクリーニングのための堅牢なフェールセーフメカニズムを提供する。
論文 参考訳(メタデータ) (2026-04-17T13:27:11Z) - TrustFed: Enabling Trustworthy Medical AI under Data Privacy Constraints [2.9567293946666173]
フェデレーション学習は、患者の生データを共有することなく、プライバシ保護、複数施設でのトレーニングを可能にする。
TrustFedは、不均一で不均衡な医療データの下で、配布不要で有限サンプルのカバレッジ保証を提供する。
医用画像における不確実性を考慮したフェデレーション学習の包括的評価を行う。
論文 参考訳(メタデータ) (2026-03-23T07:34:45Z) - Anterior's Approach to Fairness Evaluation of Automated Prior Authorization System [0.10195618602298682]
本稿では,承認結果ではなく,モデル誤り率に基づく事前承認モデルの公平性評価フレームワークを提案する。
7,166症例を対象に, 性別, 年齢, 人種・民族, 社会経済的地位の整合性を検討した。
論文 参考訳(メタデータ) (2026-03-15T22:05:24Z) - ClinNet: Evidential Ordinal Regression with Bilateral Asymmetry and Prototype Memory for Knee Osteoarthritis Grading [3.337151338735509]
X線画像に基づく膝関節症(KOA)の診断は極めて難しい課題である。
本研究では, KOA グレーディングに対処する信頼性の高い新しいフレームワーク ClinNet を提案する。
論文 参考訳(メタデータ) (2026-01-24T05:49:41Z) - Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - A Fully Automatic Framework for Intracranial Pressure Grading: Integrating Keyframe Identification, ONSD Measurement and Clinical Data [3.6652537579778106]
頭蓋内圧(ICP)上昇は脳機能に深刻な脅威をもたらし、時間的介入の監視を必要とする。
OnSD測定と臨床データを統合したICPグレーティングのための完全自動2段階フレームワークを提案する。
評価精度は0.845 pm 0.071$, 独立試験精度0.786であり, 従来のしきい値法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-11T11:37:48Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。