論文の概要: Certifiable Robustness for Naive Bayes Classifiers
- arxiv url: http://arxiv.org/abs/2303.04811v1
- Date: Wed, 8 Mar 2023 02:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 17:15:53.196492
- Title: Certifiable Robustness for Naive Bayes Classifiers
- Title(参考訳): ナイーブベイズ分類器の認証ロバスト性
- Authors: Song Bian, Xiating Ouyang, Zhiwei Fan, Paraschos Koutris
- Abstract要約: 予測がトレーニングされたデータセットに関係なく同じままであれば、テストポイントはML分類器にとって確実に堅牢である。
テストポイントがNBCにとって確実に堅牢であるかどうかを判断するデータセットのエントリ数に線形時間アルゴリズムを提案する。
決定とデータ中毒の問題に対する我々のアルゴリズムは、ベースラインアルゴリズムよりも19.5タイム、および3.06タイムのスピードアップを達成できることを示す。
- 参考スコア(独自算出の注目度): 9.607140241097254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data cleaning is crucial but often laborious in most machine learning (ML)
applications. However, task-agnostic data cleaning is sometimes unnecessary if
certain inconsistencies in the dirty data will not affect the prediction of ML
models to the test points. A test point is certifiably robust for an ML
classifier if the prediction remains the same regardless of which (among
exponentially many) cleaned dataset it is trained on.
In this paper, we study certifiable robustness for the Naive Bayes classifier
(NBC) on dirty datasets with missing values. We present (i) a linear time
algorithm in the number of entries in the dataset that decides whether a test
point is certifiably robust for NBC, (ii) an algorithm that counts for each
label, the number of cleaned datasets on which the NBC can be trained to
predict that label, and (iii) an efficient optimal algorithm that poisons a
clean dataset by inserting the minimum number of missing values such that a
test point is not certifiably robust for NBC. We prove that (iv) poisoning a
clean dataset such that multiple test points become certifiably non-robust is
NP-hard for any dataset with at least three features. Our experiments
demonstrate that our algorithms for the decision and data poisoning problems
achieve up to $19.5\times$ and $3.06\times$ speed-up over the baseline
algorithms across different real-world datasets.
- Abstract(参考訳): データクリーニングは不可欠だが、ほとんどの機械学習(ML)アプリケーションでは苦労することが多い。
しかし、汚いデータのある種の不整合がテストポイントに対するMLモデルの予測に影響しない場合、タスク非依存のデータクリーニングは不要であることがある。
予測がどの(指数関数的に多くの)クリーンデータセットがトレーニングされているかに関わらず、ML分類器に対してテストポイントは確実に堅牢である。
本稿では,Naive Bayes 分類器 (NBC) の信頼性を,欠落した値を持つ汚いデータセット上で検証する。
ご紹介します
(i)nbcにとってテストポイントが確実に堅牢であるか否かを決定するデータセットのエントリ数における線形時間アルゴリズム。
(ii)各ラベルをカウントするアルゴリズム、NBCがそのラベルを予測するためにトレーニングできるクリーン化されたデータセットの数、および
(iii)nbcにとってテストポイントが確実に頑健でないような、欠落値の最小数を挿入することにより、クリーンなデータセットを汚染する効率的な最適アルゴリズム。
私たちはそれを証明します
(4)複数の試験点が確実に損なわれないようにクリーンなデータセットを汚染することは、少なくとも3つの特徴を持つデータセットに対してNPハードである。
我々の実験は、決定とデータ中毒の問題に対する我々のアルゴリズムが、さまざまな現実世界のデータセットにわたるベースラインアルゴリズムよりも19.5\times$と3.06\times$のスピードアップを達成することを示した。
関連論文リスト
- KD-FixMatch: Knowledge Distillation Siamese Neural Networks [13.678635878305247]
KD-FixMatchは知識蒸留を取り入れてFixMatchの限界に対処する新しいSSLアルゴリズムである。
このアルゴリズムは,SNNの逐次訓練と同時訓練を組み合わせて,性能の向上と性能劣化の低減を図る。
以上の結果から,KD-FixMatchはFixMatchよりも訓練開始点が良く,モデル性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-09-11T21:11:48Z) - NP-Match: Towards a New Probabilistic Model for Semi-Supervised Learning [86.60013228560452]
半教師付き学習(SSL)は近年広く研究されており、ラベルのないデータを活用する効果的な方法である。
本研究では,ニューラルネットワーク(NP)を半教師付き画像分類タスクに調整し,NP-Matchと呼ばれる新しい手法を提案する。
NP-Matchは、予測を行う際のデータポイントを暗黙的に比較し、その結果、ラベル付けされていない各データポイントの予測がラベル付きデータポイントに影響される。
論文 参考訳(メタデータ) (2023-01-31T11:44:45Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - NP-Match: When Neural Processes meet Semi-Supervised Learning [133.009621275051]
半教師付き学習(SSL)は近年広く研究されており、ラベル付きデータへの依存を減らすためにラベル付きデータを活用する効果的な方法である。
本研究では,ニューラルネットワーク(NP)を半教師付き画像分類タスクに調整し,NP-Matchと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-07-03T15:24:31Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Certifiable Robustness for Nearest Neighbor Classifiers [6.487663563916903]
単純で広くデプロイされた分類アルゴリズム、$k$-Nearest Neighbors(k$-NN)の認証の複雑さについて検討する。
制約が関数依存(FD)である場合には、一貫性のないデータセットに重点を置いています。
そこでは、あるラベルを予測する可能性のある世界の数を数えることが目的である。
論文 参考訳(メタデータ) (2022-01-13T02:55:10Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - INN: A Method Identifying Clean-annotated Samples via Consistency Effect
in Deep Neural Networks [1.1470070927586016]
ノイズのあるラベル付きトレーニングデータからクリーンなラベル付きデータを洗練するための新しい手法であるINNを導入する。
INN法は計算量が多いが、小型の戦略よりも安定で強力である。
論文 参考訳(メタデータ) (2021-06-29T09:06:21Z) - Computing the Testing Error without a Testing Set [33.068870286618655]
テストデータセットを必要としないトレーニングとテストの間のパフォーマンスギャップを推定するアルゴリズムを導出します。
これによって、アクセスできないサンプルでも、DNNのテストエラーを計算できます。
論文 参考訳(メタデータ) (2020-05-01T15:35:50Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。