論文の概要: Active Bayesian Assessment for Black-Box Classifiers
- arxiv url: http://arxiv.org/abs/2002.06532v3
- Date: Mon, 15 Mar 2021 16:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 17:40:29.994912
- Title: Active Bayesian Assessment for Black-Box Classifiers
- Title(参考訳): ブラックボックス分類器のアクティブベイズ評価
- Authors: Disi Ji, Robert L. Logan IV, Padhraic Smyth, Mark Steyvers
- Abstract要約: 本稿では,信頼性とラベル効率の両面でのデシラタを満たすため,分類器の性能を評価するためのベイズ的手法を提案する。
まず、精度、誤分類コスト、校正誤差などの一般的な評価指標の不確かさを定量化する推論手法を開発する。
次に、推論不確実性を用いたベイズ評価のための一般的な枠組みを提案し、ラベリングのための効率的なインスタンス選択を導出する。
- 参考スコア(独自算出の注目度): 20.668691047355072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in machine learning have led to increased deployment of
black-box classifiers across a wide variety of applications. In many such
situations there is a critical need to both reliably assess the performance of
these pre-trained models and to perform this assessment in a label-efficient
manner (given that labels may be scarce and costly to collect). In this paper,
we introduce an active Bayesian approach for assessment of classifier
performance to satisfy the desiderata of both reliability and label-efficiency.
We begin by developing inference strategies to quantify uncertainty for common
assessment metrics such as accuracy, misclassification cost, and calibration
error. We then propose a general framework for active Bayesian assessment using
inferred uncertainty to guide efficient selection of instances for labeling,
enabling better performance assessment with fewer labels. We demonstrate
significant gains from our proposed active Bayesian approach via a series of
systematic empirical experiments assessing the performance of modern neural
classifiers (e.g., ResNet and BERT) on several standard image and text
classification datasets.
- Abstract(参考訳): 機械学習の最近の進歩は、さまざまなアプリケーションにわたるブラックボックス分類器のデプロイを増加させた。
このような状況の多くでは、これらの事前訓練されたモデルの性能を確実に評価し、ラベル効率のよい方法でこの評価を行う必要がある(ラベルの収集に要する費用が少なくなる)。
本稿では,信頼性とラベル効率の両方のデシデラタを満たすため,分類器の性能評価のためのアクティブベイズ法を提案する。
まず、精度、誤分類コスト、校正誤差などの一般的な評価指標の不確かさを定量化する推論戦略を開発する。
次に,推測不確実性を用いたベイズ評価のための一般的な枠組みを提案し,ラベルの少ない場合の効率的な選択を導出する。
いくつかの標準画像およびテキスト分類データセット上での現代のニューラル分類器(ResNetやBERTなど)の性能を評価する一連の系統的実験により,提案したベイズ的アプローチから大きな成果が得られた。
関連論文リスト
- Fighting Sampling Bias: A Framework for Training and Evaluating Credit Scoring Models [2.918530881730374]
本稿では,サンプリングバイアスがモデルトレーニングおよび評価に与える影響について考察する。
スコアカード評価のためのバイアス認識型自己学習と拒絶推論フレームワークを提案する。
その結果,ベイズ評価を用いて受入率を決定する場合,利益率が約8%向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-17T20:59:54Z) - Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。
既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。
本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-09T13:26:21Z) - Data-Driven Estimation of the False Positive Rate of the Bayes Binary
Classifier via Soft Labels [25.40796153743837]
本稿では,与えられたデータセットからベイズ分類器の誤り陽性率(FPR)を推定する。
我々は,デノナイジング手法とNadaraya-Watson推定器を利用した効果的なFPR推定器を開発した。
論文 参考訳(メタデータ) (2024-01-27T20:41:55Z) - Bayesian Estimate of Mean Proper Scores for Diversity-Enhanced Active
Learning [6.704927458661697]
期待されている損失削減(ELR)は、分類誤差の低減と、同じフレームワークに適合するより一般的なコストのベイズ推定に焦点を当てている。
本研究では,平均値スコア(BEMPS)のベイズ推定を行い,厳密なスコアの増加を推定する。
我々は,BEMPSが頑健な獲得関数とよく校正された分類器を出力し,他の試験よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-12-15T11:02:17Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Fair Infinitesimal Jackknife: Mitigating the Influence of Biased
Training Data Points Without Refitting [41.96570350954332]
本稿では、慎重に選択されたトレーニングデータポイントをドロップするだけで、事前学習した分類器の公平性を向上するアルゴリズムを提案する。
このような介入はモデルの予測性能を大幅に低下させるものではないが、公正度基準を大幅に改善する。
論文 参考訳(メタデータ) (2022-12-13T18:36:19Z) - Evaluating the Predictive Performance of Positive-Unlabelled
Classifiers: a brief critical review and practical recommendations for
improvement [77.34726150561087]
Positive-Unlabelled (PU) 学習は機械学習の領域として成長している。
本稿では、PU分類器を提案する51の論文において、主要なPU学習評価手法と予測精度の選択について批判的にレビューする。
論文 参考訳(メタデータ) (2022-06-06T08:31:49Z) - Active Surrogate Estimators: An Active Learning Approach to
Label-Efficient Model Evaluation [59.7305309038676]
モデル評価のためのアクティブサロゲート推定器(ASE)を提案する。
ASEは現在の最先端技術よりもラベル効率が高いことが分かりました。
論文 参考訳(メタデータ) (2022-02-14T17:15:18Z) - Ask-n-Learn: Active Learning via Reliable Gradient Representations for
Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。
Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文 参考訳(メタデータ) (2020-09-30T05:19:56Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。