論文の概要: Test for non-negligible adverse shifts
- arxiv url: http://arxiv.org/abs/2107.02990v1
- Date: Wed, 7 Jul 2021 03:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 14:11:11.837758
- Title: Test for non-negligible adverse shifts
- Title(参考訳): 非無視的不利なシフトに対するテスト
- Authors: Vathy M. Kamulete
- Abstract要約: 本稿では,アウトレーラスコアに基づくデータセットシフトテストのための堅牢なフレームワークD-SOSを提案する。
D-SOSは異常なシフトを検出し、良心による誤報を識別する。
これは、新しい(テスト)サンプルが古い(トレーニング)サンプルよりも実質上悪いものではなく、2つのサンプルが等しいことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Statistical tests for dataset shift are susceptible to false alarms: they are
sensitive to minor differences where there is in fact adequate sample coverage
and predictive performance. We propose instead a robust framework for tests of
dataset shift based on outlier scores, D-SOS for short. D-SOS detects adverse
shifts and can identify false alarms caused by benign ones. It posits that a
new (test) sample is not substantively worse than an old (training) sample, and
not that the two are equal. The key idea is to reduce observations to outlier
scores and compare contamination rates. Beyond comparing distributions, users
can define what worse means in terms of predictive performance and other
relevant notions. We show how versatile and practical D-SOS is for a wide range
of real and simulated datasets. Unlike tests of equal distribution and of
goodness-of-fit, the D-SOS tests are uniquely tailored to serve as robust
performance metrics to monitor model drift and dataset shift.
- Abstract(参考訳): データセットシフトの統計的テストは、誤報の影響を受けやすい。それらは、実際に十分なサンプルカバレッジと予測性能がある小さな違いに敏感である。
代わりに、アウトリーチスコアに基づくデータセットシフトテストのための堅牢なフレームワークD-SOSを提案する。
D-SOSは異常なシフトを検出し、良心による誤報を識別する。
これは、新しい(テスト)サンプルが古い(トレーニング)サンプルよりも実質上悪いものではなく、2つのサンプルが等しいことを示唆している。
鍵となる考え方は、観測を外付けスコアに減らし、汚染率を比較することである。
ディストリビューションの比較以外にも、予測パフォーマンスやその他の関連する概念の観点から、より悪い意味を定義することもできる。
本稿では,多種多様な実データとシミュレーションデータに対して,d-sosの有用性と実用性を示す。
均等な分布と適合性の試験とは異なり、D-SOSテストはモデルドリフトとデータセットシフトを監視するための堅牢なパフォーマンス指標として機能するように一意に調整されている。
関連論文リスト
- Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Detection of data drift and outliers affecting machine learning model
performance over time [5.319802998033767]
ドリフトはトレーニングとデプロイメントデータ間の分散変更である。
これらの変更を検出したいのですが、デプロイメントデータラベルなしでは正確さを計測できません。
代わりに、変更に対するモデル予測の信頼性の分布を非パラメトリックにテストすることで間接的にドリフトを検出する。
論文 参考訳(メタデータ) (2020-12-16T20:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。