論文の概要: Suitability Filter: A Statistical Framework for Classifier Evaluation in Real-World Deployment Settings
- arxiv url: http://arxiv.org/abs/2505.22356v1
- Date: Wed, 28 May 2025 13:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.633396
- Title: Suitability Filter: A Statistical Framework for Classifier Evaluation in Real-World Deployment Settings
- Title(参考訳): 適合性フィルタ:実世界の展開設定における分類器評価のための統計フレームワーク
- Authors: Angéline Pouget, Mohammad Yaghini, Stephan Rabanser, Nicolas Papernot,
- Abstract要約: 適合性信号を利用して性能劣化を検出する新しいフレームワークを提案する。
テストデータとユーザデータの両方に適合する信号を集約し、これらの経験的分布を比較する。
これにより、高スループットアプリケーションにおける潜在的な障害の積極的な緩和が可能となる。
- 参考スコア(独自算出の注目度): 33.080398349395686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying machine learning models in safety-critical domains poses a key challenge: ensuring reliable model performance on downstream user data without access to ground truth labels for direct validation. We propose the suitability filter, a novel framework designed to detect performance deterioration by utilizing suitability signals -- model output features that are sensitive to covariate shifts and indicative of potential prediction errors. The suitability filter evaluates whether classifier accuracy on unlabeled user data shows significant degradation compared to the accuracy measured on the labeled test dataset. Specifically, it ensures that this degradation does not exceed a pre-specified margin, which represents the maximum acceptable drop in accuracy. To achieve reliable performance evaluation, we aggregate suitability signals for both test and user data and compare these empirical distributions using statistical hypothesis testing, thus providing insights into decision uncertainty. Our modular method adapts to various models and domains. Empirical evaluations across different classification tasks demonstrate that the suitability filter reliably detects performance deviations due to covariate shift. This enables proactive mitigation of potential failures in high-stakes applications.
- Abstract(参考訳): 安全クリティカルなドメインに機械学習モデルをデプロイすることは、重要な課題となる。
本稿では,共変量シフトに敏感で潜在的な予測誤差を示すモデル出力特性を利用して,性能劣化を検出するための新しいフレームワークである適合性フィルタを提案する。
適合度フィルタは、ラベル付きユーザデータに対する分類器の精度がラベル付きテストデータセットで測定された精度と比較して著しく低下しているかどうかを評価する。
具体的には、この劣化が予め指定されたマージンを超えないことを保証する。
信頼性の高い性能評価を実現するため,テストデータとユーザデータの両方に適合する信号を集約し,これらの経験的分布を統計的仮説テストを用いて比較し,決定の不確実性に関する洞察を与える。
私たちのモジュラーメソッドは、さまざまなモデルやドメインに適応します。
異なる分類課題に対する実験的な評価は、共変量シフトによる性能偏差を確実に検出できることを証明している。
これにより、高スループットアプリケーションにおける潜在的な障害の積極的な緩和が可能となる。
関連論文リスト
- Conformal Segmentation in Industrial Surface Defect Detection with Statistical Guarantees [2.0257616108612373]
工業環境では、鋼の表面欠陥はサービス寿命を著しく損なうことができ、潜在的な安全リスクを高めることができる。
従来の欠陥検出手法は主に手動検査に依存しており、これは低効率と高コストに悩まされている。
ユーザ定義のリスクレベルに基づいて統計的に厳密なしきい値を作成し、テスト画像の高確率欠陥画素を同定する。
種々のキャリブレーションとテストの比率で予測されるテストセット誤差率に対する頑健かつ効率的な制御を実証する。
論文 参考訳(メタデータ) (2025-04-24T16:33:56Z) - Coverage-Guaranteed Speech Emotion Recognition via Calibrated Uncertainty-Adaptive Prediction Sets [0.0]
しばしば感情的な抑圧と突然のアウトバーストによって引き起こされる道路の怒りは、衝突や攻撃的な行動を引き起こすことによって道路の安全を著しく脅かす。
音声感情認識技術は、ネガティブな感情を早期に識別し、タイムリーな警告を発することにより、このリスクを軽減することができる。
本稿では,予測精度を統計的に厳格に保証するリスク制御予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T12:26:28Z) - Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。
本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文 参考訳(メタデータ) (2025-01-29T23:55:23Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Rethinking Precision of Pseudo Label: Test-Time Adaptation via
Complementary Learning [10.396596055773012]
本稿では,テスト時間適応性を高めるための新しい補完学習手法を提案する。
テスト時適応タスクでは、ソースドメインからの情報は通常利用できない。
我々は,相補ラベルのリスク関数がバニラ損失式と一致することを強調した。
論文 参考訳(メタデータ) (2023-01-15T03:36:33Z) - Simultaneous Improvement of ML Model Fairness and Performance by
Identifying Bias in Data [1.76179873429447]
トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理手法を提案する。
特に、類似した特徴を持つインスタンスが存在するが、保護属性の変動に起因するラベルが異なる問題設定では、固有のバイアスがデータセット内で引き起こされる、と主張する。
論文 参考訳(メタデータ) (2022-10-24T13:04:07Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。