論文の概要: Automatic dataset shift identification to support root cause analysis of AI performance drift
- arxiv url: http://arxiv.org/abs/2411.07940v2
- Date: Wed, 13 Nov 2024 10:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 12:31:44.759390
- Title: Automatic dataset shift identification to support root cause analysis of AI performance drift
- Title(参考訳): AI性能ドリフトの根本原因分析を支援する自動データセットシフト識別
- Authors: Mélanie Roschewitz, Raghav Mehta, Charles Jones, Ben Glocker,
- Abstract要約: データ配信のシフトは、臨床AIモデルの性能を著しく損なう可能性がある。
本稿では,最初の教師なしデータセットシフト識別フレームワークを提案する。
提案フレームワークの5種類の実世界のデータセットシフトに関する有望な結果を報告する。
- 参考スコア(独自算出の注目度): 13.996602963045387
- License:
- Abstract: Shifts in data distribution can substantially harm the performance of clinical AI models. Hence, various methods have been developed to detect the presence of such shifts at deployment time. However, root causes of dataset shifts are varied, and the choice of shift mitigation strategies is highly dependent on the precise type of shift encountered at test time. As such, detecting test-time dataset shift is not sufficient: precisely identifying which type of shift has occurred is critical. In this work, we propose the first unsupervised dataset shift identification framework, effectively distinguishing between prevalence shift (caused by a change in the label distribution), covariate shift (caused by a change in input characteristics) and mixed shifts (simultaneous prevalence and covariate shifts). We discuss the importance of self-supervised encoders for detecting subtle covariate shifts and propose a novel shift detector leveraging both self-supervised encoders and task model outputs for improved shift detection. We report promising results for the proposed shift identification framework across three different imaging modalities (chest radiography, digital mammography, and retinal fundus images) on five types of real-world dataset shifts, using four large publicly available datasets.
- Abstract(参考訳): データ配信のシフトは、臨床AIモデルの性能を著しく損なう可能性がある。
そのため、展開時にそのようなシフトの存在を検出するために様々な方法が開発されている。
しかし、データセットシフトの根本原因は様々であり、シフト緩和戦略の選択はテスト時に遭遇する正確なシフトの種類に大きく依存する。
そのため、テスト時のデータセットシフトを検出するだけでは不十分である。
本研究では,ラベル分布の変化による)有病率シフト,(入力特性の変化による)共変量シフト,(同時有病率と共変量シフト)混合変化を効果的に区別する,最初の教師なしデータセットシフト識別フレームワークを提案する。
本稿では、微妙な共変量シフトを検出するための自己教師エンコーダの重要性を論じ、自己教師エンコーダとタスクモデル出力の両方を活用してシフト検出を改善する新しいシフト検出器を提案する。
本研究では,3種類の画像モダリティ(胸部X線撮影,デジタルマンモグラフィー,網膜底画像)にまたがる4種類の大規模データセットを用いて,実世界の5種類のデータセットシフトを提案する。
関連論文リスト
- Adversarial Learning for Feature Shift Detection and Correction [45.65548560695731]
機能シフトは、複数のセンサデータ、一部のセンサが機能不全である、あるいは構造化データ、欠陥のある標準化とデータ処理パイプラインが誤った機能につながる、など、多くのデータセットで起こりうる。
そこで本研究では,2つの分布を区別するために訓練された複数の識別器から得られる情報を用いて,破損した特徴を検知し,それらを修正することにより,データセット間の分布シフトを除去する。
論文 参考訳(メタデータ) (2023-12-07T18:58:40Z) - Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Adapting to Latent Subgroup Shifts via Concepts and Proxies [82.01141290360562]
最適ターゲット予測器は、ソースドメインでのみ利用できる概念とプロキシ変数の助けを借りて、非パラメトリックに識別可能であることを示す。
本研究では,データ生成プロセスに特有の潜在変数モデルを提案する。
論文 参考訳(メタデータ) (2022-12-21T18:30:22Z) - A unified framework for dataset shift diagnostics [2.449909275410288]
教師付き学習技術は典型的には、訓練データが標的人口に由来すると仮定する。
しかし、データセットのシフトが頻繁に発生し、適切に考慮しなければ、予測器の性能が低下する可能性がある。
我々は、複数のデータセットシフトの定量化とテストを行うTectorShiftという、新しいフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:34:45Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Exploring Covariate and Concept Shift for Detection and Calibration of
Out-of-Distribution Data [77.27338842609153]
キャラクタリゼーションにより、OODデータの検出と信頼性校正には、それぞれのシフトに対する感度が重要であることが明らかになった。
分布内データのみを用いて両シフトでのOOD検出を改善するために,幾何学的に着想を得た手法を提案する。
我々は,OOD検出とキャリブレーションの両面で,異なるタイプのシフトの下でうまく機能する手法を最初に提案する。
論文 参考訳(メタデータ) (2021-10-28T15:42:55Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Ensembling Shift Detectors: an Extensive Empirical Evaluation [0.2538209532048867]
データセットシフトという用語は、機械学習モデルをトレーニングするために使用されるデータが、モデルが動作する場所と異なる状況を指す。
本稿では,各検出器の統計的テストの重要度をデータセットに調整しながら,相補的なシフト検出器をアンサンブルする,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2021-06-28T12:21:16Z) - Robust Classification under Class-Dependent Domain Shift [29.54336432319199]
本稿では,クラス依存ドメインシフト(class-dependent domain shift)と呼ぶ,特別なタイプのデータセットシフトについて検討する。
入力データはラベルに依存し、データのシフトは既知の変数によって完全に説明され、シフトを制御する変数はラベルに依存することができ、ラベル分布にシフトはない。
論文 参考訳(メタデータ) (2020-07-10T12:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。