論文の概要: Detecting Errors and Estimating Accuracy on Unlabeled Data with
Self-training Ensembles
- arxiv url: http://arxiv.org/abs/2106.15728v4
- Date: Sun, 14 May 2023 01:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 01:39:38.125315
- Title: Detecting Errors and Estimating Accuracy on Unlabeled Data with
Self-training Ensembles
- Title(参考訳): 自己学習アンサンブルを用いたラベルなしデータの誤り検出と推定精度
- Authors: Jiefeng Chen, Frederick Liu, Besim Avci, Xi Wu, Yingyu Liang, Somesh
Jha
- Abstract要約: 本稿では,この2つの課題に同時に対処する,原則的かつ実用的な枠組みを提案する。
1つのインスタンス化は、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
- 参考スコア(独自算出の注目度): 38.23896575179384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a deep learning model is deployed in the wild, it can encounter test
data drawn from distributions different from the training data distribution and
suffer drop in performance. For safe deployment, it is essential to estimate
the accuracy of the pre-trained model on the test data. However, the labels for
the test inputs are usually not immediately available in practice, and
obtaining them can be expensive. This observation leads to two challenging
tasks: (1) unsupervised accuracy estimation, which aims to estimate the
accuracy of a pre-trained classifier on a set of unlabeled test inputs; (2)
error detection, which aims to identify mis-classified test inputs. In this
paper, we propose a principled and practically effective framework that
simultaneously addresses the two tasks. The proposed framework iteratively
learns an ensemble of models to identify mis-classified data points and
performs self-training to improve the ensemble with the identified points.
Theoretical analysis demonstrates that our framework enjoys provable guarantees
for both accuracy estimation and error detection under mild conditions readily
satisfied by practical deep learning models. Along with the framework, we
proposed and experimented with two instantiations and achieved state-of-the-art
results on 59 tasks. For example, on iWildCam, one instantiation reduces the
estimation error for unsupervised accuracy estimation by at least 70% and
improves the F1 score for error detection by at least 4.7% compared to existing
methods.
- Abstract(参考訳): ディープラーニングモデルがワイルドにデプロイされると、トレーニングデータ分布とは異なる分布から引き出されたテストデータに遭遇し、パフォーマンスが低下する可能性がある。
安全なデプロイメントには,事前トレーニングしたモデルの精度をテストデータ上で推定することが不可欠である。
しかし、テスト入力のラベルは通常、すぐには利用できず、それらを取得するには費用がかかる可能性がある。
本研究は,(1) ラベル付きテスト入力のセット上で事前学習した分類器の精度を推定することを目的とした教師なしの精度推定,(2) 誤分類テスト入力の同定を目的とした誤り検出の2つの課題を実現する。
本稿では,2つのタスクを同時に処理する原理的かつ効果的なフレームワークを提案する。
提案手法は,誤分類されたデータポイントを識別するためのモデルのアンサンブルを反復的に学習し,同定されたポイントとのアンサンブルを改善するために自己学習を行う。
理論解析により,本フレームワークは,実用的なディープラーニングモデルによって容易に満足できる軽度条件下での精度推定と誤り検出の両立を保証できる。
このフレームワークとともに,59のタスクに対して2つのインスタンス化を提案し,実験を行った。
例えば、iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを既存の方法と比較して少なくとも4.7%改善する。
関連論文リスト
- Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Leveraging Gradients for Unsupervised Accuracy Estimation under
Distribution Shift [25.951051758560702]
さまざまなテスト環境下での地味なテストラベルへのアクセスなしにテスト精度を推定することは難しいが、非常に重要な問題である。
テストデータのたった1ステップの後に、クロスエントロピー損失から逆転した分類層勾配のノルムを用いる。
我々のキーとなる考え方は、分布シフトを伴うテストデータセットに一般化しない場合、モデルがより高次勾配で調整されるべきであるということです。
論文 参考訳(メタデータ) (2024-01-17T01:33:23Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Estimating Model Performance under Domain Shifts with Class-Specific
Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。
我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文 参考訳(メタデータ) (2022-07-20T15:04:32Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。