論文の概要: $k$-Anonymity in Practice: How Generalisation and Suppression Affect
Machine Learning Classifiers
- arxiv url: http://arxiv.org/abs/2102.04763v1
- Date: Tue, 9 Feb 2021 11:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 14:50:16.025263
- Title: $k$-Anonymity in Practice: How Generalisation and Suppression Affect
Machine Learning Classifiers
- Title(参考訳): k$-anonymity in practice: 一般化と抑圧が機械学習の分類器に与える影響
- Authors: Djordje Slijep\v{c}evi\'c, Maximilian Henzl, Lukas Daniel Klausner,
Tobias Dam, Peter Kieseberg, Matthias Zeppelzauer
- Abstract要約: 機械学習モデルの結果に異なる$k$匿名化アルゴリズムが与える影響について検討する。
我々の体系的評価は、より強い$k$匿名性制約により、分類性能は一般的に低下することを示している。
モンドリアンは、その後の分類において最も魅力的な性質を持つ方法とみなすことができる。
- 参考スコア(独自算出の注目度): 2.4282642968872037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The protection of private information is a crucial issue in data-driven
research and business contexts. Typically, techniques like anonymisation or
(selective) deletion are introduced in order to allow data sharing, \eg\ in the
case of collaborative research endeavours. For use with anonymisation
techniques, the $k$-anonymity criterion is one of the most popular, with
numerous scientific publications on different algorithms and metrics.
Anonymisation techniques often require changing the data and thus necessarily
affect the results of machine learning models trained on the underlying data.
In this work, we conduct a systematic comparison and detailed investigation
into the effects of different $k$-anonymisation algorithms on the results of
machine learning models. We investigate a set of popular $k$-anonymisation
algorithms with different classifiers and evaluate them on different real-world
datasets. Our systematic evaluation shows that with an increasingly strong
$k$-anonymity constraint, the classification performance generally degrades,
but to varying degrees and strongly depending on the dataset and anonymisation
method. Furthermore, Mondrian can be considered as the method with the most
appealing properties for subsequent classification.
- Abstract(参考訳): 個人情報保護は、データ駆動研究やビジネスコンテキストにおいて重要な課題です。
通常、匿名化や(選択的)削除のような技術は、共同研究におけるデータ共有を可能にするために導入される。
匿名化技術を使用する場合、$k$匿名性基準は最も人気があり、様々なアルゴリズムやメトリクスに関する多くの科学的出版物がある。
匿名化技術はしばしばデータの変更を必要とするため、基礎となるデータに基づいて訓練された機械学習モデルの結果に必ずしも影響する。
本研究では,異なる$k$匿名化アルゴリズムが機械学習モデルに与える影響について,体系的な比較と詳細な調査を行う。
我々は、異なる分類器を持つ一般的な$k$匿名化アルゴリズムのセットを調査し、それらを異なる実世界のデータセットで評価する。
体系的な評価から,k$-匿名性の制約がますます強くなるにつれて,分類性能は一般的に低下するが,データセットや匿名化手法によって大きく異なる程度に低下することが示された。
さらに、モンドリアンはその後の分類において最も魅力的な性質を持つ方法と見なすことができる。
関連論文リスト
- Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - Gone but Not Forgotten: Improved Benchmarks for Machine Unlearning [0.0]
本稿では,機械学習アルゴリズムの代替評価手法について記述し,提案する。
我々は、さまざまなコンピュータビジョンデータセット上で、最先端の未学習アルゴリズムの一連の実験を通して、代替評価の有用性を示す。
論文 参考訳(メタデータ) (2024-05-29T15:53:23Z) - How to Leverage Diverse Demonstrations in Offline Imitation Learning [39.24627312800116]
不完全な実演を伴うオフライン模倣学習(IL)は、専門家データの不足により注目を集めている。
本稿では, 結果の状態に基づいて正の挙動を識別する, 単純で効果的なデータ選択手法を提案する。
次に、専門家と選択したデータを正しく活用できる軽量な行動クローニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-05-24T04:56:39Z) - Comparison of machine learning models applied on anonymized data with
different techniques [0.0]
分類目的に現在使われている4つの古典的機械学習手法を,匿名化手法の関数として解析し,それぞれが選択したパラメータについて検討した。
これらのモデルの性能は、k-匿名性に対するkの値の変化と、$ell$-diversity、t-closeness、$delta$-disclosure privacyなどの追加ツールがよく知られたアダルトデータセットにデプロイされるときにも検討される。
論文 参考訳(メタデータ) (2023-05-12T12:34:07Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Low-rank Dictionary Learning for Unsupervised Feature Selection [11.634317251468968]
低ランク表現に辞書学習のアイデアを適用することで、教師なしの新たな特徴選択手法を導入する。
非教師付き特徴選択のための統一目的関数は、$ell_2,1$-norm正規化によってスパースな方法で提案される。
実験の結果,提案手法は最先端のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-21T13:39:10Z) - DomainMix: Learning Generalizable Person Re-Identification Without Human
Annotations [89.78473564527688]
本稿では,ラベル付き合成データセットとラベル付き実世界のデータセットを用いてユニバーサルモデルをトレーニングする方法を示す。
このように、人間のアノテーションはもはや不要であり、大規模で多様な現実世界のデータセットにスケーラブルである。
実験結果から,提案手法は完全な人間のアノテーションで訓練されたアノテーションとほぼ同等であることがわかった。
論文 参考訳(メタデータ) (2020-11-24T08:15:53Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。