論文の概要: Comparison of machine learning models applied on anonymized data with
different techniques
- arxiv url: http://arxiv.org/abs/2305.07415v1
- Date: Fri, 12 May 2023 12:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:10:52.460372
- Title: Comparison of machine learning models applied on anonymized data with
different techniques
- Title(参考訳): 匿名化データと異なる手法を用いた機械学習モデルの比較
- Authors: Judith S\'ainz-Pardo D\'iaz and \'Alvaro L\'opez Garc\'ia
- Abstract要約: 分類目的に現在使われている4つの古典的機械学習手法を,匿名化手法の関数として解析し,それぞれが選択したパラメータについて検討した。
これらのモデルの性能は、k-匿名性に対するkの値の変化と、$ell$-diversity、t-closeness、$delta$-disclosure privacyなどの追加ツールがよく知られたアダルトデータセットにデプロイされるときにも検討される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Anonymization techniques based on obfuscating the quasi-identifiers by means
of value generalization hierarchies are widely used to achieve preset levels of
privacy. To prevent different types of attacks against database privacy it is
necessary to apply several anonymization techniques beyond the classical
k-anonymity or $\ell$-diversity. However, the application of these methods is
directly connected to a reduction of their utility in prediction and decision
making tasks. In this work we study four classical machine learning methods
currently used for classification purposes in order to analyze the results as a
function of the anonymization techniques applied and the parameters selected
for each of them. The performance of these models is studied when varying the
value of k for k-anonymity and additional tools such as $\ell$-diversity,
t-closeness and $\delta$-disclosure privacy are also deployed on the well-known
adult dataset.
- Abstract(参考訳): 値一般化階層による準識別器の難読化に基づく匿名化手法は,プライバシの事前設定レベルを達成するために広く用いられている。
データベースのプライバシーに対するさまざまな種類の攻撃を防止するには、古典的なk匿名性や$\ell$-diversity以上の匿名化技術を適用する必要がある。
しかし,これらの手法の応用は,予測・意思決定タスクにおける有用性の低減と直接的に結びついている。
本研究では,4つの古典的機械学習手法を分類目的に用いて,匿名化手法の関数として結果を解析し,それぞれが選択したパラメータについて検討する。
これらのモデルの性能は、k匿名性のk値を変更する際に研究され、有名な成人データセット上には、$\ell$-diversity、t-closeness、$\delta$-disclosure privacyなどの追加ツールもデプロイされる。
関連論文リスト
- Privacy- and Utility-Preserving NLP with Anonymized Data: A case study
of Pseudonymization [22.84767881115746]
私たちの研究は、オリジナルデータと匿名データのギャップに関する重要な洞察を提供します。
コード、偽名付きデータセット、ダウンストリームモデルを公開しています。
論文 参考訳(メタデータ) (2023-06-08T21:06:19Z) - Self-Paced Learning for Open-Set Domain Adaptation [50.620824701934]
従来のドメイン適応手法は、ソースとターゲットドメインのクラスが同一であると仮定する。
オープンセットドメイン適応(OSDA)は、この制限に対処する。
そこで,本研究では,共通クラスと未知クラスを識別するための自己評価学習に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-10T14:11:09Z) - Learning Classifiers of Prototypes and Reciprocal Points for Universal
Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。
主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。
既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文 参考訳(メタデータ) (2022-12-16T09:01:57Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - On the utility and protection of optimization with differential privacy
and classic regularization techniques [9.413131350284083]
本稿では,標準最適化手法に対するDP-SGDアルゴリズムの有効性について検討する。
我々は、差分プライバシーの欠陥と限界について議論し、ドロップアウトとl2-規則化のプライバシー保護特性がしばしば優れていることを実証した。
論文 参考訳(メタデータ) (2022-09-07T14:10:21Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - Uncertainty-Autoencoder-Based Privacy and Utility Preserving Data Type
Conscious Transformation [3.7315964084413173]
プライバシ・ユーティリティのトレードオフ問題に対処する逆学習フレームワークを2つの条件で提案する。
データタイプの無知な条件下では、プライバシメカニズムは、正確に1つのクラスを表す、カテゴリ機能の1ホットエンコーディングを提供する。
データ型認識条件下では、分類変数は各クラスごとに1つのスコアの集合で表される。
論文 参考訳(メタデータ) (2022-05-04T08:40:15Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - $k$-Anonymity in Practice: How Generalisation and Suppression Affect
Machine Learning Classifiers [2.4282642968872037]
機械学習モデルの結果に異なる$k$匿名化アルゴリズムが与える影響について検討する。
我々の体系的評価は、より強い$k$匿名性制約により、分類性能は一般的に低下することを示している。
モンドリアンは、その後の分類において最も魅力的な性質を持つ方法とみなすことができる。
論文 参考訳(メタデータ) (2021-02-09T11:28:20Z) - Privacy Analysis of Online Learning Algorithms via Contraction
Coefficients [5.333582981327498]
差分プライバシー保証は、$f$-divergencesの強いデータ処理の不等式から導かれる収縮係数の直接適用によって決定できることを示す。
また、このフレームワークは、トレーニングデータセットをワンパスで実装できるバッチ学習アルゴリズムに調整可能であることも示しています。
論文 参考訳(メタデータ) (2020-12-20T22:02:15Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。