論文の概要: Certifiable Robustness for Naive Bayes Classifiers
- arxiv url: http://arxiv.org/abs/2303.04811v1
- Date: Wed, 8 Mar 2023 02:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 17:15:53.196492
- Title: Certifiable Robustness for Naive Bayes Classifiers
- Title(参考訳): ナイーブベイズ分類器の認証ロバスト性
- Authors: Song Bian, Xiating Ouyang, Zhiwei Fan, Paraschos Koutris
- Abstract要約: 予測がトレーニングされたデータセットに関係なく同じままであれば、テストポイントはML分類器にとって確実に堅牢である。
テストポイントがNBCにとって確実に堅牢であるかどうかを判断するデータセットのエントリ数に線形時間アルゴリズムを提案する。
決定とデータ中毒の問題に対する我々のアルゴリズムは、ベースラインアルゴリズムよりも19.5タイム、および3.06タイムのスピードアップを達成できることを示す。
- 参考スコア(独自算出の注目度): 9.607140241097254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data cleaning is crucial but often laborious in most machine learning (ML)
applications. However, task-agnostic data cleaning is sometimes unnecessary if
certain inconsistencies in the dirty data will not affect the prediction of ML
models to the test points. A test point is certifiably robust for an ML
classifier if the prediction remains the same regardless of which (among
exponentially many) cleaned dataset it is trained on.
In this paper, we study certifiable robustness for the Naive Bayes classifier
(NBC) on dirty datasets with missing values. We present (i) a linear time
algorithm in the number of entries in the dataset that decides whether a test
point is certifiably robust for NBC, (ii) an algorithm that counts for each
label, the number of cleaned datasets on which the NBC can be trained to
predict that label, and (iii) an efficient optimal algorithm that poisons a
clean dataset by inserting the minimum number of missing values such that a
test point is not certifiably robust for NBC. We prove that (iv) poisoning a
clean dataset such that multiple test points become certifiably non-robust is
NP-hard for any dataset with at least three features. Our experiments
demonstrate that our algorithms for the decision and data poisoning problems
achieve up to $19.5\times$ and $3.06\times$ speed-up over the baseline
algorithms across different real-world datasets.
- Abstract(参考訳): データクリーニングは不可欠だが、ほとんどの機械学習(ML)アプリケーションでは苦労することが多い。
しかし、汚いデータのある種の不整合がテストポイントに対するMLモデルの予測に影響しない場合、タスク非依存のデータクリーニングは不要であることがある。
予測がどの(指数関数的に多くの)クリーンデータセットがトレーニングされているかに関わらず、ML分類器に対してテストポイントは確実に堅牢である。
本稿では,Naive Bayes 分類器 (NBC) の信頼性を,欠落した値を持つ汚いデータセット上で検証する。
ご紹介します
(i)nbcにとってテストポイントが確実に堅牢であるか否かを決定するデータセットのエントリ数における線形時間アルゴリズム。
(ii)各ラベルをカウントするアルゴリズム、NBCがそのラベルを予測するためにトレーニングできるクリーン化されたデータセットの数、および
(iii)nbcにとってテストポイントが確実に頑健でないような、欠落値の最小数を挿入することにより、クリーンなデータセットを汚染する効率的な最適アルゴリズム。
私たちはそれを証明します
(4)複数の試験点が確実に損なわれないようにクリーンなデータセットを汚染することは、少なくとも3つの特徴を持つデータセットに対してNPハードである。
我々の実験は、決定とデータ中毒の問題に対する我々のアルゴリズムが、さまざまな現実世界のデータセットにわたるベースラインアルゴリズムよりも19.5\times$と3.06\times$のスピードアップを達成することを示した。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Novel Deep Neural Network Classifier Characterization Metrics with Applications to Dataless Evaluation [1.6574413179773757]
本研究では、サンプルデータセットを使わずに、ディープニューラルネットワーク(DNN)分類器のトレーニング品質を評価する。
CAFIR10およびCAFIR100データセットを用いて学習したResNet18の手法に関する実証的研究により、DNN分類器のデータレス評価が実際に可能であることを確認した。
論文 参考訳(メタデータ) (2024-07-17T20:40:46Z) - FlaKat: A Machine Learning-Based Categorization Framework for Flaky
Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。
State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-03-01T22:00:44Z) - Smoothed Embeddings for Certified Few-Shot Learning [63.68667303948808]
我々はランダムな平滑化を数ショットの学習モデルに拡張し、入力を正規化された埋め込みにマッピングする。
この結果は、異なるデータセットの実験によって確認される。
論文 参考訳(メタデータ) (2022-02-02T18:19:04Z) - Certifiable Robustness for Nearest Neighbor Classifiers [6.487663563916903]
単純で広くデプロイされた分類アルゴリズム、$k$-Nearest Neighbors(k$-NN)の認証の複雑さについて検討する。
制約が関数依存(FD)である場合には、一貫性のないデータセットに重点を置いています。
そこでは、あるラベルを予測する可能性のある世界の数を数えることが目的である。
論文 参考訳(メタデータ) (2022-01-13T02:55:10Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - A Topological Data Analysis Based Classifier [1.6668132748773563]
本稿では,多クラス分類問題に直接トポロジカルデータ解析を適用するアルゴリズムを提案する。
提案アルゴリズムは,データセット上にフィルタされた単純複合体を構築する。
提案手法は平均してKNNと重み付きKNNよりも優れていた。
論文 参考訳(メタデータ) (2021-11-09T15:54:16Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - FIND: Human-in-the-Loop Debugging Deep Text Classifiers [55.135620983922564]
隠れた機能を無効にすることで、人間がディープラーニングテキスト分類器をデバッグできるフレームワークであるFINDを提案する。
実験により、人間はFINDを使用することで、異なる種類の不完全なデータセットの下で訓練されたCNNテキスト分類器を改善することができる。
論文 参考訳(メタデータ) (2020-10-10T12:52:53Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。