論文の概要: Picket: Guarding Against Corrupted Data in Tabular Data during Learning
and Inference
- arxiv url: http://arxiv.org/abs/2006.04730v3
- Date: Mon, 26 Jul 2021 04:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:50:46.735987
- Title: Picket: Guarding Against Corrupted Data in Tabular Data during Learning
and Inference
- Title(参考訳): Picket:学習と推論中の単語データの破損データに対するガード
- Authors: Zifan Liu and Zhechun Zhou and Theodoros Rekatsinas
- Abstract要約: Picketは、機械学習モデルのトレーニングとデプロイの両方において、データの破損を防ぐためのシンプルなフレームワークである。
トレーニング段階では、Picketはトレーニングデータから破損したデータポイントを特定して削除し、バイアスのあるモデルを得るのを避ける。
デプロイメントステージにおいて、Picketフラグは、オンライン的に、破損したクエリポイントをトレーニングされた機械学習モデルに割り当てる。
- 参考スコア(独自算出の注目度): 10.628802851896028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data corruption is an impediment to modern machine learning deployments.
Corrupted data can severely bias the learned model and can also lead to invalid
inferences. We present, Picket, a simple framework to safeguard against data
corruptions during both training and deployment of machine learning models over
tabular data. For the training stage, Picket identifies and removes corrupted
data points from the training data to avoid obtaining a biased model. For the
deployment stage, Picket flags, in an online manner, corrupted query points to
a trained machine learning model that due to noise will result in incorrect
predictions. To detect corrupted data, Picket uses a self-supervised deep
learning model for mixed-type tabular data, which we call PicketNet. To
minimize the burden of deployment, learning a PicketNet model does not require
any human-labeled data. Picket is designed as a plugin that can increase the
robustness of any machine learning pipeline. We evaluate Picket on a diverse
array of real-world data considering different corruption models that include
systematic and adversarial noise during both training and testing. We show that
Picket consistently safeguards against corrupted data during both training and
deployment of various models ranging from SVMs to neural networks, beating a
diverse array of competing methods that span from data quality validation
models to robust outlier-detection models.
- Abstract(参考訳): データ破損は、現代の機械学習デプロイメントの障害である。
破損したデータは、学習したモデルをひどくバイアスし、無効な推論につながる可能性がある。
我々は,表データ上の機械学習モデルのトレーニングとデプロイの両方において,データ破損を防止するためのシンプルなフレームワークであるpicketを提案する。
トレーニング段階では、Picketはトレーニングデータから破損したデータポイントを特定して削除し、バイアスのあるモデルを得るのを避ける。
デプロイの段階では、ピケットフラグがオンラインの方法で、トレーニングされた機械学習モデルを指し示すことで、ノイズによる予測が不正確なものになる。
破損したデータを検出するために、picketnetと呼ばれる混合型表データに対して、自己教師付きディープラーニングモデルを使用します。
デプロイメントの負担を最小限に抑えるため、PicketNetモデルを学ぶには、人間のラベル付きデータを必要としない。
picketは、あらゆる機械学習パイプラインの堅牢性を高めるプラグインとして設計されている。
我々は,トレーニングとテストの両方において,組織的および敵対的ノイズを含む異なる汚職モデルを考慮した多種多様な実世界のデータからピケットを評価する。
我々は、SVMからニューラルネットワークまで、さまざまなモデルのトレーニングとデプロイの間、Picketが、データ品質検証モデルから堅牢なアウトリア検出モデルまで、さまざまな競合するメソッドを圧倒していることを、一貫して示す。
関連論文リスト
- Effective and Robust Adversarial Training against Data and Label Corruptions [35.53386268796071]
データ摂動とラベルノイズによる破損は、信頼できない情報源からのデータセットに多い。
我々は,2種類の汚職を同時に扱うための,効果的かつロバストな適応訓練フレームワークを開発した。
論文 参考訳(メタデータ) (2024-05-07T10:53:20Z) - Corrective Machine Unlearning [22.342035149807923]
我々は、未知の操作が学習モデルに与える影響を緩和する問題として、矯正機械学習を定式化する。
削除セットを使わずにスクラッチから再学習するなど、既存の未学習手法の多くは、有効な修正未学習のために、操作されたデータの大部分を識別する必要がある。
選択的シナプス減衰法(Selective Synaptic Dampening)は, 操作したサンプルのごく一部で, 有害な効果を学習することなく, 限られた成功を達成している。
論文 参考訳(メタデータ) (2024-02-21T18:54:37Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Reduced Robust Random Cut Forest for Out-Of-Distribution detection in
machine learning models [0.799536002595393]
ほとんどの機械学習ベースの回帰器は、限られた長さの過去の観測を通して収集されたデータから情報を抽出し、将来予測する。
これらのトレーニングモデルへの入力は、トレーニングに使用されるデータと統計特性が著しく異なるデータである場合、正確な予測は保証されない。
本稿では,ロバストランダムカットフォレストデータ構造を用いた新しい検出手法を提案する。
論文 参考訳(メタデータ) (2022-06-18T17:01:40Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Unsupervised Model Drift Estimation with Batch Normalization Statistics
for Dataset Shift Detection and Model Selection [0.0]
本研究では,未ラベル試験データに基づくバッチ正規化層の統計量を利用したモデルドリフト推定手法を提案する。
本手法は,モデル動物園内に複数の候補モデルが存在する場合のモデル選択だけでなく,教師なしの方法でのトレーニングトラジェクトリにおいても有効であることを示す。
論文 参考訳(メタデータ) (2021-07-01T03:04:47Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Robust Variational Autoencoder for Tabular Data with Beta Divergence [0.0]
本稿では,連続的特徴と分類的特徴を混合した頑健な変動型オートエンコーダを提案する。
ネットワークトラフィックデータセットの異常検出アプリケーションについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T08:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。