論文の概要: Comparison of machine learning models applied on anonymized data with
different techniques
- arxiv url: http://arxiv.org/abs/2305.07415v1
- Date: Fri, 12 May 2023 12:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:10:52.460372
- Title: Comparison of machine learning models applied on anonymized data with
different techniques
- Title(参考訳): 匿名化データと異なる手法を用いた機械学習モデルの比較
- Authors: Judith S\'ainz-Pardo D\'iaz and \'Alvaro L\'opez Garc\'ia
- Abstract要約: 分類目的に現在使われている4つの古典的機械学習手法を,匿名化手法の関数として解析し,それぞれが選択したパラメータについて検討した。
これらのモデルの性能は、k-匿名性に対するkの値の変化と、$ell$-diversity、t-closeness、$delta$-disclosure privacyなどの追加ツールがよく知られたアダルトデータセットにデプロイされるときにも検討される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Anonymization techniques based on obfuscating the quasi-identifiers by means
of value generalization hierarchies are widely used to achieve preset levels of
privacy. To prevent different types of attacks against database privacy it is
necessary to apply several anonymization techniques beyond the classical
k-anonymity or $\ell$-diversity. However, the application of these methods is
directly connected to a reduction of their utility in prediction and decision
making tasks. In this work we study four classical machine learning methods
currently used for classification purposes in order to analyze the results as a
function of the anonymization techniques applied and the parameters selected
for each of them. The performance of these models is studied when varying the
value of k for k-anonymity and additional tools such as $\ell$-diversity,
t-closeness and $\delta$-disclosure privacy are also deployed on the well-known
adult dataset.
- Abstract(参考訳): 値一般化階層による準識別器の難読化に基づく匿名化手法は,プライバシの事前設定レベルを達成するために広く用いられている。
データベースのプライバシーに対するさまざまな種類の攻撃を防止するには、古典的なk匿名性や$\ell$-diversity以上の匿名化技術を適用する必要がある。
しかし,これらの手法の応用は,予測・意思決定タスクにおける有用性の低減と直接的に結びついている。
本研究では,4つの古典的機械学習手法を分類目的に用いて,匿名化手法の関数として結果を解析し,それぞれが選択したパラメータについて検討する。
これらのモデルの性能は、k匿名性のk値を変更する際に研究され、有名な成人データセット上には、$\ell$-diversity、t-closeness、$\delta$-disclosure privacyなどの追加ツールもデプロイされる。
関連論文リスト
- Data Lineage Inference: Uncovering Privacy Vulnerabilities of Dataset Pruning [31.888075470799908]
余剰集合内のデータがモデルトレーニングの前にのみ使用される場合でも、攻撃によってプルーニングフェーズのメンバシップ状態が検出可能であることを示す。
我々は、Data-Centric Membership Inferenceと呼ばれる新しいタスクを導入し、Data Lineage Inferenceというデータ中心のプライバシ推論パラダイムを提案する。
異なるプライバシリークのレベルが異なり、同じプルーニング手法でも異なるプライバシリスクを異なるプルーニング率で提示できることがわかった。
論文 参考訳(メタデータ) (2024-11-24T11:46:59Z) - Masked Differential Privacy [64.32494202656801]
本稿では,差分プライバシーを適用した機密領域を制御できる「マスク型差分プライバシー(DP)」という効果的なアプローチを提案する。
提案手法はデータに基づいて選択的に動作し,DPアプリケーションや差分プライバシーをデータサンプル内の他のプライバシー技術と組み合わせることなく,非感性時間領域を定義できる。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Asymptotic utility of spectral anonymization [0.0]
スペクトル匿名化(SA)アルゴリズムの有用性とプライバシについて検討する。
我々は、$mathcalJ$-spectral anonymizationと$mathcalO$-spectral anonymizationの2つの新しいSA変種を紹介する。
いくつかの現実的な仮定の下では、これらのSAアルゴリズムが元のデータの第一と第二の瞬間をいかに保存するかを示す。
論文 参考訳(メタデータ) (2024-05-28T07:53:20Z) - A Novel Cross-Perturbation for Single Domain Generalization [54.612933105967606]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。
トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。
トレーニングデータの多様性を高めるために,CPerbを提案する。
論文 参考訳(メタデータ) (2023-08-02T03:16:12Z) - Privacy- and Utility-Preserving NLP with Anonymized Data: A case study
of Pseudonymization [22.84767881115746]
私たちの研究は、オリジナルデータと匿名データのギャップに関する重要な洞察を提供します。
コード、偽名付きデータセット、ダウンストリームモデルを公開しています。
論文 参考訳(メタデータ) (2023-06-08T21:06:19Z) - Self-Paced Learning for Open-Set Domain Adaptation [50.620824701934]
従来のドメイン適応手法は、ソースとターゲットドメインのクラスが同一であると仮定する。
オープンセットドメイン適応(OSDA)は、この制限に対処する。
そこで,本研究では,共通クラスと未知クラスを識別するための自己評価学習に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-10T14:11:09Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - On the utility and protection of optimization with differential privacy
and classic regularization techniques [9.413131350284083]
本稿では,標準最適化手法に対するDP-SGDアルゴリズムの有効性について検討する。
我々は、差分プライバシーの欠陥と限界について議論し、ドロップアウトとl2-規則化のプライバシー保護特性がしばしば優れていることを実証した。
論文 参考訳(メタデータ) (2022-09-07T14:10:21Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - $k$-Anonymity in Practice: How Generalisation and Suppression Affect
Machine Learning Classifiers [2.4282642968872037]
機械学習モデルの結果に異なる$k$匿名化アルゴリズムが与える影響について検討する。
我々の体系的評価は、より強い$k$匿名性制約により、分類性能は一般的に低下することを示している。
モンドリアンは、その後の分類において最も魅力的な性質を持つ方法とみなすことができる。
論文 参考訳(メタデータ) (2021-02-09T11:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。