論文の概要: Exploiting the Data Gap: Utilizing Non-ignorable Missingness to Manipulate Model Learning
- arxiv url: http://arxiv.org/abs/2409.04407v1
- Date: Fri, 6 Sep 2024 17:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:14:50.295653
- Title: Exploiting the Data Gap: Utilizing Non-ignorable Missingness to Manipulate Model Learning
- Title(参考訳): データギャップの爆発:非無視の欠如を利用したモデル学習の操作
- Authors: Deniz Koyuncu, Alex Gittens, Bülent Yener, Moti Yung,
- Abstract要約: 敵対的ミススティングネス(AM)攻撃は、悪意ある無知の欠陥メカニズムによって動機づけられる。
本研究は,AM攻撃の文脈における連帯学習に焦点を当てる。
両レベルの最適化として,対向的欠落メカニズムの学習を定式化する。
- 参考スコア(独自算出の注目度): 13.797822374912773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing data is commonly encountered in practice, and when the missingness is non-ignorable, effective remediation depends on knowledge of the missingness mechanism. Learning the underlying missingness mechanism from the data is not possible in general, so adversaries can exploit this fact by maliciously engineering non-ignorable missingness mechanisms. Such Adversarial Missingness (AM) attacks have only recently been motivated and introduced, and then successfully tailored to mislead causal structure learning algorithms into hiding specific cause-and-effect relationships. However, existing AM attacks assume the modeler (victim) uses full-information maximum likelihood methods to handle the missing data, and are of limited applicability when the modeler uses different remediation strategies. In this work we focus on associational learning in the context of AM attacks. We consider (i) complete case analysis, (ii) mean imputation, and (iii) regression-based imputation as alternative strategies used by the modeler. Instead of combinatorially searching for missing entries, we propose a novel probabilistic approximation by deriving the asymptotic forms of these methods used for handling the missing entries. We then formulate the learning of the adversarial missingness mechanism as a bi-level optimization problem. Experiments on generalized linear models show that AM attacks can be used to change the p-values of features from significant to insignificant in real datasets, such as the California-housing dataset, while using relatively moderate amounts of missingness (<20%). Additionally, we assess the robustness of our attacks against defense strategies based on data valuation.
- Abstract(参考訳): 欠失データは実際には一般的に遭遇し、欠失が無視できない場合、効果的な修復は欠失メカニズムの知識に依存する。
データから根底にある欠陥メカニズムを学習することは、一般的に不可能なので、敵は悪意のない欠陥メカニズムを悪用することで、この事実を悪用することができる。
このような敵対的ミススティングネス(AM)攻撃は、最近になってモチベーションを得て導入され、因果構造学習アルゴリズムをミスリードして特定の因果関係を隠蔽することに成功している。
しかし、既存の AM 攻撃では、モデラー (victim) は、欠落したデータを扱うために、完全な情報最大可能性法を使用し、モデラーが異なる修復戦略を使用する場合、適用範囲が限られていると仮定する。
本研究は,AM攻撃の文脈における連帯学習に焦点を当てる。
考える
(i)完全な事例分析
(二)抑止の意、及び
三 モデリング者が使用する代替戦略としての回帰に基づく計算
欠落したエントリを組み合わせて検索する代わりに、欠落したエントリを扱うために使用されるこれらのメソッドの漸近形式を導出することにより、新しい確率近似を提案する。
次に、二段階最適化問題として、対向的欠落メカニズムの学習を定式化する。
一般化された線形モデルの実験により、AM攻撃は、カリフォルニア住宅データセットのような実際のデータセットにおいて、特徴のp-値が重要なものから重要でないものへと変化し、比較的穏やかな量の欠落(20%)を使用することができることが示された。
さらに、データ評価に基づいて、防衛戦略に対する攻撃の堅牢性を評価する。
関連論文リスト
- Nonlinear Transformations Against Unlearnable Datasets [4.876873339297269]
自動スクラップは、データ所有者の許可なしにディープラーニングモデルのデータを収集する一般的な方法として際立っている。
近年,このデータ収集手法に関するプライバシー問題に取り組み始めている。
学習不可能(unlearnable)な例と呼ばれるこれらのアプローチによって生成されたデータは、ディープラーニングモデルによって"学習"される。
論文 参考訳(メタデータ) (2024-06-05T03:00:47Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Deception by Omission: Using Adversarial Missingness to Poison Causal
Structure Learning [12.208616050090027]
観測データから因果構造を推定することは因果機械学習の重要な要素である。
これまでの研究では、完全に観察されたトレーニングデータの逆流が、不正確な因果構造モデルの学習に役立てられることが示されている。
本研究は,学習因果構造に偏りを与えるために,敵対者が真の訓練データの一部を欺くような新たな攻撃手法を導入する。
論文 参考訳(メタデータ) (2023-05-31T17:14:20Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Deep Generative Pattern-Set Mixture Models for Nonignorable Missingness [0.0]
無視できないデータと無視できないデータの両方をモデル化する可変オートエンコーダアーキテクチャを提案する。
モデルでは,観測されたデータと欠落マスクに基づいて,欠落したデータを欠落パターンにクラスタ化することを明示的に学習する。
当社のセットアップでは,無知かつ無知な欠如の特性をトレードオフすることで,両タイプのデータに適用することが可能である。
論文 参考訳(メタデータ) (2021-03-05T08:21:35Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。