論文の概要: Systematic Testing of the Data-Poisoning Robustness of KNN
- arxiv url: http://arxiv.org/abs/2307.08288v1
- Date: Mon, 17 Jul 2023 07:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:22:26.372592
- Title: Systematic Testing of the Data-Poisoning Robustness of KNN
- Title(参考訳): KNNのデータポジショニングロバストネスの系統的評価
- Authors: Yannan Li, Jingbo Wang, and Chao Wang
- Abstract要約: データ中毒は、機械学習ベースのソフトウェアコンポーネントを汚染し、トレーニングセットを汚染し、テスト入力の予測結果を変更することを目的としている。
データ・ポゾン・ロバスト性を決定する既存の方法には、精度が劣るか、長い実行時間がある。
本稿では,広く使用されている教師あり学習手法に対して,データ収集の堅牢性を証明するとともに,そのファルシフィケーションを図り得る系統的テストベース手法を提案する。
- 参考スコア(独自算出の注目度): 8.028344363418865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data poisoning aims to compromise a machine learning based software component
by contaminating its training set to change its prediction results for test
inputs. Existing methods for deciding data-poisoning robustness have either
poor accuracy or long running time and, more importantly, they can only certify
some of the truly-robust cases, but remain inconclusive when certification
fails. In other words, they cannot falsify the truly-non-robust cases. To
overcome this limitation, we propose a systematic testing based method, which
can falsify as well as certify data-poisoning robustness for a widely used
supervised-learning technique named k-nearest neighbors (KNN). Our method is
faster and more accurate than the baseline enumeration method, due to a novel
over-approximate analysis in the abstract domain, to quickly narrow down the
search space, and systematic testing in the concrete domain, to find the actual
violations. We have evaluated our method on a set of supervised-learning
datasets. Our results show that the method significantly outperforms
state-of-the-art techniques, and can decide data-poisoning robustness of KNN
prediction results for most of the test inputs.
- Abstract(参考訳): データ中毒は、機械学習ベースのソフトウェアコンポーネントを汚染し、トレーニングセットを汚染し、テスト入力の予測結果を変更することを目的としている。
データポジショニングのロバスト性を決定する既存の方法は、精度が低いか、実行時間が長いかのいずれかであり、さらに重要なのは、真に損なわれたケースのいくつかを認定するだけでなく、認証が失敗しても決定的なままである。
言い換えれば、真に破壊的でないケースを偽造することはできない。
この制限を克服するために、k-nearest neighbors (KNN) と呼ばれる広く使われている教師あり学習技術に対して、データ汚染の堅牢性を証明し、ファルシフィケートできる体系的なテストベース手法を提案する。
本手法は,抽象領域における新しい過剰近似解析により探索空間を迅速に狭め,具体的な領域を体系的にテストし,実際の違反を見つけ出すため,ベースライン列挙法よりも高速かつ精度の高い手法である。
教師付き学習データセットを用いて,本手法の評価を行った。
その結果,本手法は最先端技術よりも優れており,ほとんどのテスト入力に対してKNN予測結果のロバスト性を決定することができることがわかった。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Instance-based Learning with Prototype Reduction for Real-Time
Proportional Myocontrol: A Randomized User Study Demonstrating
Accuracy-preserving Data Reduction for Prosthetic Embedded Systems [0.0]
本研究は, 義肢制御におけるジェスチャー検出のためのkNNスキームに基づく学習手法の設計, 実装, 検証を行う。
8チャンネルSEMGアームバンドを用いて,パラメータ化と比例スキームの変化の影響を解析した。
論文 参考訳(メタデータ) (2023-08-21T20:15:35Z) - TEASMA: A Practical Methodology for Test Adequacy Assessment of Deep Neural Networks [4.528286105252983]
TEASMAはDeep Neural Networksのテストセットの精度を正確に評価するために設計された包括的で実用的な方法論である。
遠隔ベースサプライズカバレッジ(DSC)、ライクフードベースサプライズカバレッジ(LSC)、入出力カバレッジ(IDC)、ミューテーションスコア(MS)の4つの測定値を用いてTEASMAを評価する。
論文 参考訳(メタデータ) (2023-08-02T17:56:05Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - A Novel Data Augmentation Technique for Out-of-Distribution Sample
Detection using Compounded Corruptions [7.8353348433211165]
CnCと呼ばれるOODデータ拡張のための新しい複合的破壊手法を提案する。
現在の最先端(SOTA)技術とは異なり、CnCはテスト時にバックプロパゲーションやアンサンブルを必要としない。
過去4年間の大規模なカンファレンスから得られた20の手法との比較から,CnCベースのデータ拡張によるトレーニングモデルの方がSOTAを著しく上回ることが示された。
論文 参考訳(メタデータ) (2022-07-28T07:17:11Z) - Efficient Testing of Deep Neural Networks via Decision Boundary Analysis [28.868479656437145]
我々は、新しいラベルのないデータに基づいてDNNの性能を推定できるAriesという新しい手法を提案する。
Aries による推定精度は 0.03% -- 2.60% (平均 0.61%) しか真の精度から外れていない。
論文 参考訳(メタデータ) (2022-07-22T08:39:10Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - iDECODe: In-distribution Equivariance for Conformal Out-of-distribution
Detection [24.518698391381204]
ディープニューラルネットワーク(DNN)のような機械学習手法は、しばしば信頼性の高い誤った予測を生成する。
そこで我々は,共形OOD検出に分配同値を用いたiDECODeを提案する。
画像と音声のデータセットを用いた実験により,iDECODeの有効性を実証し,その結果を得た。
論文 参考訳(メタデータ) (2022-01-07T05:21:40Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文 参考訳(メタデータ) (2020-07-24T17:40:06Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。