論文の概要: Not All Datasets Are Born Equal: On Heterogeneous Data and Adversarial
Examples
- arxiv url: http://arxiv.org/abs/2010.03180v2
- Date: Thu, 2 Sep 2021 08:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 00:15:41.598142
- Title: Not All Datasets Are Born Equal: On Heterogeneous Data and Adversarial
Examples
- Title(参考訳): すべてのデータセットが生まれながらに等しくない:異種データと逆例について
- Authors: Yael Mathov, Eden Levy, Ziv Katzir, Asaf Shabtai, Yuval Elovici
- Abstract要約: 我々は、異種データで訓練された機械学習モデルは、同種データで訓練された機械学習モデルと同じくらい敵の操作に影響を受けやすいと論じる。
不均一な入力空間における逆摂動を識別する汎用的な最適化フレームワークを提案する。
その結果、異種データセットの入力妥当性に制約が課されているにもかかわらず、そのようなデータを用いて訓練された機械学習モデルは相変わらず敵の例にも適用可能であることが示された。
- 参考スコア(独自算出の注目度): 46.625818815798254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on adversarial learning has focused mainly on neural networks and
domains where those networks excel, such as computer vision, or audio
processing. The data in these domains is typically homogeneous, whereas
heterogeneous tabular datasets domains remain underexplored despite their
prevalence. When searching for adversarial patterns within heterogeneous input
spaces, an attacker must simultaneously preserve the complex domain-specific
validity rules of the data, as well as the adversarial nature of the identified
samples. As such, applying adversarial manipulations to heterogeneous datasets
has proved to be a challenging task, and no generic attack method was suggested
thus far. We, however, argue that machine learning models trained on
heterogeneous tabular data are as susceptible to adversarial manipulations as
those trained on continuous or homogeneous data such as images. To support our
claim, we introduce a generic optimization framework for identifying
adversarial perturbations in heterogeneous input spaces. We define
distribution-aware constraints for preserving the consistency of the
adversarial examples and incorporate them by embedding the heterogeneous input
into a continuous latent space. Due to the nature of the underlying datasets We
focus on $\ell_0$ perturbations, and demonstrate their applicability in real
life. We demonstrate the effectiveness of our approach using three datasets
from different content domains. Our results demonstrate that despite the
constraints imposed on input validity in heterogeneous datasets, machine
learning models trained using such data are still equally susceptible to
adversarial examples.
- Abstract(参考訳): 敵対的学習に関する最近の研究は、主にニューラルネットワークや、それらのネットワークが優れているコンピュータビジョンやオーディオ処理などに焦点を当てている。
これらの領域のデータは典型的には均質であるが、不均一な表層データセット領域は、その頻度にもかかわらず未探索のままである。
異種入力空間内の逆パターンを探索する場合、攻撃者はデータの複雑なドメイン固有の妥当性ルールと同定されたサンプルの逆パターンの両方を同時に保存する必要がある。
そのため、異種データセットへの逆操作の適用は難しい課題であり、これまでのところ汎用攻撃法は提案されていない。
しかし,ヘテロジニアスな表データに基づいてトレーニングされた機械学習モデルは,画像などの連続的あるいは均質なデータでトレーニングされたものと同じくらい,逆境操作に影響を受けやすいと主張する。
この主張を支持するために,異種入力空間における逆摂動を識別するための汎用最適化フレームワークを提案する。
我々は,逆例の一貫性を保つための分布認識制約を定義し,不均質な入力を連続的潜在空間に埋め込むことでそれらを取り込む。
基礎となるデータセットの性質から、$\ell_0$の摂動に注目し、実際の運用性を示す。
異なるコンテンツ領域の3つのデータセットを用いて,提案手法の有効性を示す。
その結果,ヘテロジニアスデータセットの入力妥当性に課される制約にもかかわらず,そのようなデータを用いてトレーニングされた機械学習モデルは,相反する例に等しく影響を受けやすいことがわかった。
関連論文リスト
- Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - Enhancing Anomaly Detection via Generating Diversified and Hard-to-distinguish Synthetic Anomalies [7.021105583098609]
近年のアプローチでは、通常のサンプルから合成異常を生成するためにドメイン固有の変換や摂動を活用することに重点を置いている。
そこで本研究では,条件付き摂動器と判別器を併用したドメインに依存しない新しい手法を提案する。
我々は,最先端のベンチマークよりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T08:15:23Z) - Investigating Imperceptibility of Adversarial Attacks on Tabular Data: An Empirical Analysis [1.6693963355435217]
敵対的攻撃は、機械学習モデルに対する潜在的な脅威である。
これらの攻撃は入力データに対する知覚不能な摂動を通じて誤った予測を引き起こす。
本研究は、敵攻撃の非受容性を評価するための重要な特徴とそれに対応する指標のセットを提案する。
論文 参考訳(メタデータ) (2024-07-16T07:55:25Z) - Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups [0.0]
ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。
本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
論文 参考訳(メタデータ) (2023-12-12T22:49:24Z) - Adversarial Examples Might be Avoidable: The Role of Data Concentration in Adversarial Robustness [39.883465335244594]
入力空間の小体積部分集合に対する濃度は、ロバストな分類器が存在するかどうかを決定する。
さらに、低次元線形部分空間の結合に集中したデータ分布に対して、データの構造を生かして、データ依存多面体保証を享受する分類器が自然に現れることを示した。
論文 参考訳(メタデータ) (2023-09-28T01:39:47Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Heteroskedastic and Imbalanced Deep Learning with Adaptive
Regularization [55.278153228758434]
実世界のデータセットはヘテロスケダティックで不均衡である。
ヘテロスケダスティック性と不均衡を同時に扱うことは、未発見である。
本稿ではヘテロスケダスティックデータセットに対するデータ依存正規化手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。