論文の概要: Adversarial Machine Learning-Enabled Anonymization of OpenWiFi Data
- arxiv url: http://arxiv.org/abs/2401.01542v1
- Date: Wed, 3 Jan 2024 04:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:10:38.543237
- Title: Adversarial Machine Learning-Enabled Anonymization of OpenWiFi Data
- Title(参考訳): 逆機械学習によるオープンWiFiデータの匿名化
- Authors: Samhita Kuili, Kareem Dabbour, Irtiza Hasan, Andrea Herscovich, Burak
Kantarci, Marcel Chenier, Melike Erol-Kantarci
- Abstract要約: 匿名化によるデータのプライバシと保護は、他のデータの使用が期待される前にネットワークオペレータやデータ所有者にとって重要な問題である。
オープンWiFiネットワークは、データ所有者が持つ知識に関係なく、トラフィックへのアクセスや知識を得ようとする敵に対して脆弱である。
CTGANは合成データを生成する。これは実際のデータとして偽装するが、実際のデータの隠れた急性情報を促進する。
- 参考スコア(独自算出の注目度): 9.492736565723892
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data privacy and protection through anonymization is a critical issue for
network operators or data owners before it is forwarded for other possible use
of data. With the adoption of Artificial Intelligence (AI), data anonymization
augments the likelihood of covering up necessary sensitive information;
preventing data leakage and information loss. OpenWiFi networks are vulnerable
to any adversary who is trying to gain access or knowledge on traffic
regardless of the knowledge possessed by data owners. The odds for discovery of
actual traffic information is addressed by applied conditional tabular
generative adversarial network (CTGAN). CTGAN yields synthetic data; which
disguises as actual data but fostering hidden acute information of actual data.
In this paper, the similarity assessment of synthetic with actual data is
showcased in terms of clustering algorithms followed by a comparison of
performance for unsupervised cluster validation metrics. A well-known
algorithm, K-means outperforms other algorithms in terms of similarity
assessment of synthetic data over real data while achieving nearest scores
0.634, 23714.57, and 0.598 as Silhouette, Calinski and Harabasz and Davies
Bouldin metric respectively. On exploiting a comparative analysis in validation
scores among several algorithms, K-means forms the epitome of unsupervised
clustering algorithms ensuring explicit usage of synthetic data at the same
time a replacement for real data. Hence, the experimental results aim to show
the viability of using CTGAN-generated synthetic data in lieu of publishing
anonymized data to be utilized in various applications.
- Abstract(参考訳): 匿名化によるデータのプライバシと保護は、他のデータの使用が期待される前にネットワークオペレータやデータ所有者にとって重要な問題である。
人工知能(AI)の採用により、データ匿名化は必要な機密情報を隠蔽し、データの漏洩や情報損失を防ぐ可能性を高める。
openwifiネットワークは、データ所有者の持つ知識に関係なく、トラフィックへのアクセスや知識を得ようとする敵に対して脆弱である。
実際の交通情報を発見する確率は、適用条件表生成逆ネットワーク(CTGAN)によって解決される。
CTGANは合成データを生成する。これは実際のデータとして偽装するが、実際のデータの隠れた急性情報を促進する。
本稿では、クラスタリングアルゴリズムを用いて、実データと合成データの類似性評価を行い、その後、教師なしクラスタ検証メトリクスのパフォーマンスの比較を行った。
有名なアルゴリズムであるk-meansは、silhouette、calinski、harabaszおよびdavies bouldinメトリックとして0.634、23714.57、0.598をそれぞれ達成しながら、実データ上の合成データの類似度評価で他のアルゴリズムよりも優れている。
いくつかのアルゴリズム間で検証スコアの比較分析を利用すると、k-meansは合成データの明示的な利用を保証する教師なしクラスタリングアルゴリズムのエピトームを形成し、同時に実データを置き換える。
そこで, 実験結果は, CTGAN 生成した合成データを用いて, 各種アプリケーションで利用される匿名データの公開に代えて, 有効性を示すことを目的としている。
関連論文リスト
- Contrastive Learning-Based privacy metrics in Tabular Synthetic Datasets [40.67424997797513]
合成データは、医療や金融などの分野におけるプライバシー強化技術(PET)として注目されている。
類似度に基づく手法は、トレーニングと合成データとの類似度のレベルを求めることを目的としている。
攻撃に基づく手法は、合成データセットに対する故意の攻撃を誘発する。
論文 参考訳(メタデータ) (2025-02-19T15:52:23Z) - Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。
我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。
先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文 参考訳(メタデータ) (2023-06-19T17:08:32Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-13T20:09:17Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Using Synthetic Data to Enhance the Accuracy of Fingerprint-Based
Localization: A Deep Learning Approach [1.6379393441314491]
合成データを用いた指紋ベースのローカリゼーションにおけるトレーニングデータ収集コストを削減するための新しいアプローチを紹介します。
GAN(Generative Adversarial Network)は、収集されたデータの限られたサンプルの分布を学習するために用いられる。
収集されたデータのフルセットを使用して得られるものと本質的に同様の位置決め精度を得ることができます。
論文 参考訳(メタデータ) (2021-05-05T07:36:01Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。