論文の概要: $k$-Anonymity in Practice: How Generalisation and Suppression Affect
Machine Learning Classifiers
- arxiv url: http://arxiv.org/abs/2102.04763v1
- Date: Tue, 9 Feb 2021 11:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 14:50:16.025263
- Title: $k$-Anonymity in Practice: How Generalisation and Suppression Affect
Machine Learning Classifiers
- Title(参考訳): k$-anonymity in practice: 一般化と抑圧が機械学習の分類器に与える影響
- Authors: Djordje Slijep\v{c}evi\'c, Maximilian Henzl, Lukas Daniel Klausner,
Tobias Dam, Peter Kieseberg, Matthias Zeppelzauer
- Abstract要約: 機械学習モデルの結果に異なる$k$匿名化アルゴリズムが与える影響について検討する。
我々の体系的評価は、より強い$k$匿名性制約により、分類性能は一般的に低下することを示している。
モンドリアンは、その後の分類において最も魅力的な性質を持つ方法とみなすことができる。
- 参考スコア(独自算出の注目度): 2.4282642968872037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The protection of private information is a crucial issue in data-driven
research and business contexts. Typically, techniques like anonymisation or
(selective) deletion are introduced in order to allow data sharing, \eg\ in the
case of collaborative research endeavours. For use with anonymisation
techniques, the $k$-anonymity criterion is one of the most popular, with
numerous scientific publications on different algorithms and metrics.
Anonymisation techniques often require changing the data and thus necessarily
affect the results of machine learning models trained on the underlying data.
In this work, we conduct a systematic comparison and detailed investigation
into the effects of different $k$-anonymisation algorithms on the results of
machine learning models. We investigate a set of popular $k$-anonymisation
algorithms with different classifiers and evaluate them on different real-world
datasets. Our systematic evaluation shows that with an increasingly strong
$k$-anonymity constraint, the classification performance generally degrades,
but to varying degrees and strongly depending on the dataset and anonymisation
method. Furthermore, Mondrian can be considered as the method with the most
appealing properties for subsequent classification.
- Abstract(参考訳): 個人情報保護は、データ駆動研究やビジネスコンテキストにおいて重要な課題です。
通常、匿名化や(選択的)削除のような技術は、共同研究におけるデータ共有を可能にするために導入される。
匿名化技術を使用する場合、$k$匿名性基準は最も人気があり、様々なアルゴリズムやメトリクスに関する多くの科学的出版物がある。
匿名化技術はしばしばデータの変更を必要とするため、基礎となるデータに基づいて訓練された機械学習モデルの結果に必ずしも影響する。
本研究では,異なる$k$匿名化アルゴリズムが機械学習モデルに与える影響について,体系的な比較と詳細な調査を行う。
我々は、異なる分類器を持つ一般的な$k$匿名化アルゴリズムのセットを調査し、それらを異なる実世界のデータセットで評価する。
体系的な評価から,k$-匿名性の制約がますます強くなるにつれて,分類性能は一般的に低下するが,データセットや匿名化手法によって大きく異なる程度に低下することが示された。
さらに、モンドリアンはその後の分類において最も魅力的な性質を持つ方法と見なすことができる。
関連論文リスト
- Comparison of machine learning models applied on anonymized data with
different techniques [0.0]
分類目的に現在使われている4つの古典的機械学習手法を,匿名化手法の関数として解析し,それぞれが選択したパラメータについて検討した。
これらのモデルの性能は、k-匿名性に対するkの値の変化と、$ell$-diversity、t-closeness、$delta$-disclosure privacyなどの追加ツールがよく知られたアダルトデータセットにデプロイされるときにも検討される。
論文 参考訳(メタデータ) (2023-05-12T12:34:07Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Cost-Sensitive Stacking: an Empirical Evaluation [3.867363075280544]
コスト感受性学習は、誤分類コストの違いを考慮に入れた分類アルゴリズムに適応する。
コストに敏感なスタックとは何か、という文献には意見の一致がない。
実験は12のデータセットを用いて行われ、最高の性能を得るためには、どちらのレベルの積み重ねもコストに敏感な分類決定を必要とすることを示した。
論文 参考訳(メタデータ) (2023-01-04T18:28:07Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Low-rank Dictionary Learning for Unsupervised Feature Selection [11.634317251468968]
低ランク表現に辞書学習のアイデアを適用することで、教師なしの新たな特徴選択手法を導入する。
非教師付き特徴選択のための統一目的関数は、$ell_2,1$-norm正規化によってスパースな方法で提案される。
実験の結果,提案手法は最先端のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-21T13:39:10Z) - DomainMix: Learning Generalizable Person Re-Identification Without Human
Annotations [89.78473564527688]
本稿では,ラベル付き合成データセットとラベル付き実世界のデータセットを用いてユニバーサルモデルをトレーニングする方法を示す。
このように、人間のアノテーションはもはや不要であり、大規模で多様な現実世界のデータセットにスケーラブルである。
実験結果から,提案手法は完全な人間のアノテーションで訓練されたアノテーションとほぼ同等であることがわかった。
論文 参考訳(メタデータ) (2020-11-24T08:15:53Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。