論文の概要: Systematic Testing of the Data-Poisoning Robustness of KNN
- arxiv url: http://arxiv.org/abs/2307.08288v1
- Date: Mon, 17 Jul 2023 07:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:22:26.372592
- Title: Systematic Testing of the Data-Poisoning Robustness of KNN
- Title(参考訳): KNNのデータポジショニングロバストネスの系統的評価
- Authors: Yannan Li, Jingbo Wang, and Chao Wang
- Abstract要約: データ中毒は、機械学習ベースのソフトウェアコンポーネントを汚染し、トレーニングセットを汚染し、テスト入力の予測結果を変更することを目的としている。
データ・ポゾン・ロバスト性を決定する既存の方法には、精度が劣るか、長い実行時間がある。
本稿では,広く使用されている教師あり学習手法に対して,データ収集の堅牢性を証明するとともに,そのファルシフィケーションを図り得る系統的テストベース手法を提案する。
- 参考スコア(独自算出の注目度): 8.028344363418865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data poisoning aims to compromise a machine learning based software component
by contaminating its training set to change its prediction results for test
inputs. Existing methods for deciding data-poisoning robustness have either
poor accuracy or long running time and, more importantly, they can only certify
some of the truly-robust cases, but remain inconclusive when certification
fails. In other words, they cannot falsify the truly-non-robust cases. To
overcome this limitation, we propose a systematic testing based method, which
can falsify as well as certify data-poisoning robustness for a widely used
supervised-learning technique named k-nearest neighbors (KNN). Our method is
faster and more accurate than the baseline enumeration method, due to a novel
over-approximate analysis in the abstract domain, to quickly narrow down the
search space, and systematic testing in the concrete domain, to find the actual
violations. We have evaluated our method on a set of supervised-learning
datasets. Our results show that the method significantly outperforms
state-of-the-art techniques, and can decide data-poisoning robustness of KNN
prediction results for most of the test inputs.
- Abstract(参考訳): データ中毒は、機械学習ベースのソフトウェアコンポーネントを汚染し、トレーニングセットを汚染し、テスト入力の予測結果を変更することを目的としている。
データポジショニングのロバスト性を決定する既存の方法は、精度が低いか、実行時間が長いかのいずれかであり、さらに重要なのは、真に損なわれたケースのいくつかを認定するだけでなく、認証が失敗しても決定的なままである。
言い換えれば、真に破壊的でないケースを偽造することはできない。
この制限を克服するために、k-nearest neighbors (KNN) と呼ばれる広く使われている教師あり学習技術に対して、データ汚染の堅牢性を証明し、ファルシフィケートできる体系的なテストベース手法を提案する。
本手法は,抽象領域における新しい過剰近似解析により探索空間を迅速に狭め,具体的な領域を体系的にテストし,実際の違反を見つけ出すため,ベースライン列挙法よりも高速かつ精度の高い手法である。
教師付き学習データセットを用いて,本手法の評価を行った。
その結果,本手法は最先端技術よりも優れており,ほとんどのテスト入力に対してKNN予測結果のロバスト性を決定することができることがわかった。
関連論文リスト
- Instance-based Learning with Prototype Reduction for Real-Time
Proportional Myocontrol: A Randomized User Study Demonstrating
Accuracy-preserving Data Reduction for Prosthetic Embedded Systems [0.0]
本研究は, 義肢制御におけるジェスチャー検出のためのkNNスキームに基づく学習手法の設計, 実装, 検証を行う。
8チャンネルSEMGアームバンドを用いて,パラメータ化と比例スキームの変化の影響を解析した。
論文 参考訳(メタデータ) (2023-08-21T20:15:35Z) - TEASMA: A Practical Approach for the Test Assessment of Deep Neural
Networks using Mutation Analysis [4.858153427089108]
Deep Neural Networks(DNN)のデプロイを成功させるためには、適切なテストセットで検証する必要がある。
TEASMAは,DNNテストセットの妥当性を評価するためのポストトレーニング突然変異に基づく手法である。
論文 参考訳(メタデータ) (2023-08-02T17:56:05Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - The #DNN-Verification Problem: Counting Unsafe Inputs for Deep Neural
Networks [94.63547069706459]
#DNN-Verification問題は、DNNの入力構成の数を数えることによって安全性に反する結果となる。
違反の正確な数を返す新しい手法を提案する。
安全クリティカルなベンチマークのセットに関する実験結果を示す。
論文 参考訳(メタデータ) (2023-01-17T18:32:01Z) - A Novel Data Augmentation Technique for Out-of-Distribution Sample
Detection using Compounded Corruptions [7.8353348433211165]
CnCと呼ばれるOODデータ拡張のための新しい複合的破壊手法を提案する。
現在の最先端(SOTA)技術とは異なり、CnCはテスト時にバックプロパゲーションやアンサンブルを必要としない。
過去4年間の大規模なカンファレンスから得られた20の手法との比較から,CnCベースのデータ拡張によるトレーニングモデルの方がSOTAを著しく上回ることが示された。
論文 参考訳(メタデータ) (2022-07-28T07:17:11Z) - Efficient Testing of Deep Neural Networks via Decision Boundary Analysis [28.868479656437145]
我々は、新しいラベルのないデータに基づいてDNNの性能を推定できるAriesという新しい手法を提案する。
Aries による推定精度は 0.03% -- 2.60% (平均 0.61%) しか真の精度から外れていない。
論文 参考訳(メタデータ) (2022-07-22T08:39:10Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - iDECODe: In-distribution Equivariance for Conformal Out-of-distribution
Detection [24.518698391381204]
ディープニューラルネットワーク(DNN)のような機械学習手法は、しばしば信頼性の高い誤った予測を生成する。
そこで我々は,共形OOD検出に分配同値を用いたiDECODeを提案する。
画像と音声のデータセットを用いた実験により,iDECODeの有効性を実証し,その結果を得た。
論文 参考訳(メタデータ) (2022-01-07T05:21:40Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文 参考訳(メタデータ) (2020-07-24T17:40:06Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。