論文の概要: Statistically Valid Post-Deployment Monitoring Should Be Standard for AI-Based Digital Health
- arxiv url: http://arxiv.org/abs/2506.05701v1
- Date: Fri, 06 Jun 2025 03:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.302607
- Title: Statistically Valid Post-Deployment Monitoring Should Be Standard for AI-Based Digital Health
- Title(参考訳): 統計的に妥当なデプロイ後のモニタリングは、AIベースのデジタルヘルスの標準になるべき
- Authors: Pavel Dolin, Weizhi Li, Gautam Dasarathy, Visar Berisha,
- Abstract要約: FDAが登録しているAIベースの医療ツールのわずか9%に、デプロイ後の監視計画が含まれている。
既存の監視アプローチはしばしば手動、散発的、リアクティブである。
本稿では,データの変化の検出とモデル性能の劣化を,統計的に異なる仮説テスト問題として扱うことを提案する。
- 参考スコア(独自算出の注目度): 14.256683587576935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper argues that post-deployment monitoring in clinical AI is underdeveloped and proposes statistically valid and label-efficient testing frameworks as a principled foundation for ensuring reliability and safety in real-world deployment. A recent review found that only 9% of FDA-registered AI-based healthcare tools include a post-deployment surveillance plan. Existing monitoring approaches are often manual, sporadic, and reactive, making them ill-suited for the dynamic environments in which clinical models operate. We contend that post-deployment monitoring should be grounded in label-efficient and statistically valid testing frameworks, offering a principled alternative to current practices. We use the term "statistically valid" to refer to methods that provide explicit guarantees on error rates (e.g., Type I/II error), enable formal inference under pre-defined assumptions, and support reproducibility--features that align with regulatory requirements. Specifically, we propose that the detection of changes in the data and model performance degradation should be framed as distinct statistical hypothesis testing problems. Grounding monitoring in statistical rigor ensures a reproducible and scientifically sound basis for maintaining the reliability of clinical AI systems. Importantly, it also opens new research directions for the technical community--spanning theory, methods, and tools for statistically principled detection, attribution, and mitigation of post-deployment model failures in real-world settings.
- Abstract(参考訳): 本稿では、臨床AIにおけるポストデプロイモニタリングが未開発であり、現実のデプロイメントにおける信頼性と安全性を確保するための基本的な基盤として、統計的に有効でラベル効率の高いテストフレームワークを提案する。
最近の調査によると、FDAが登録しているAIベースの医療ツールのわずか9%に、デプロイ後の監視計画が含まれている。
既存のモニタリングアプローチは、しばしば手動、散発的で反応性があり、臨床モデルが動作する動的な環境には不適である。
デプロイ後の監視は、ラベル効率が高く統計的に有効なテストフレームワークに根ざすべきであり、現在のプラクティスの原則的な代替手段を提供するべきだ、と私たちは主張する。
我々は、「統計的に有効」という用語を用いて、エラー率の明示的な保証を提供する手法(例えば、I/II型エラー)、事前定義された前提の下での形式推論の実現、規制要件に沿った再現性-機能のサポート、具体的には、データおよびモデル性能劣化の検知は、統計的仮説テスト問題としてフレーム化されるべきであると提案する。統計的厳密なモニタリングにより、臨床AIシステムの信頼性を維持するための再現性と科学的に健全な基盤が確保される。重要なことは、技術的コミュニティ・スパンニング理論、手法、そして、実際の環境における統計的に原理化された検出、帰属性、および後デプロイモデルの緩和に関する新たな研究方向を開くことである。
関連論文リスト
- WATCH: Adaptive Monitoring for AI Deployments via Weighted-Conformal Martingales [13.807613678989664]
非パラメトリックシーケンシャルテストのメソッド -- 特にコンフォーマルテストマーチンチャル(CTM)と任意の時間価推論 -- は、この監視タスクに有望なツールを提供する。
既存のアプローチは、限られた仮説クラスやアラーム基準の監視に限られています。」
論文 参考訳(メタデータ) (2025-05-07T17:53:47Z) - Context-Aware Online Conformal Anomaly Detection with Prediction-Powered Data Acquisition [35.59201763567714]
文脈認識型共形オンライン異常検出(C-PP-COAD)を導入する。
本フレームワークは,データ不足を軽減するために合成キャリブレーションデータを戦略的に活用し,コンテキストに基づく実データの統合を適応的に行う。
C-PP-COADは、偽発見率(FDR)を保証せずに、実際のキャリブレーションデータへの依存を著しく低減することを示した。
論文 参考訳(メタデータ) (2025-05-03T10:58:05Z) - Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる
PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。
バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Designing monitoring strategies for deployed machine learning
algorithms: navigating performativity through a causal lens [6.329470650220206]
この研究の目的は、監視戦略を設計する際の比較的過小評価されている複雑さを強調することである。
MLに基づく未計画の読み出し予測のためのリスク予測アルゴリズムについて検討する。
このケーススタディの結果は、すべての監視システムが平等に作成されるわけではないという、一見単純な(そして明らかな)事実を強調します。
論文 参考訳(メタデータ) (2023-11-20T00:15:16Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Safe AI for health and beyond -- Monitoring to transform a health
service [51.8524501805308]
機械学習アルゴリズムの出力を監視するために必要なインフラストラクチャを評価する。
モデルのモニタリングと更新の例を示す2つのシナリオを提示します。
論文 参考訳(メタデータ) (2023-03-02T17:27:45Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。