論文の概要: Privacy-preserving feature selection: A survey and proposing a new set
of protocols
- arxiv url: http://arxiv.org/abs/2008.07664v1
- Date: Mon, 17 Aug 2020 23:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 04:26:56.152026
- Title: Privacy-preserving feature selection: A survey and proposing a new set
of protocols
- Title(参考訳): プライバシ保護機能選択:新しいプロトコルの集合に関する調査と提案
- Authors: Javad Rahimipour Anaraki, Saeed Samet
- Abstract要約: プライバシ保護機能の選択方法を3つ検討し、その性能を改善するための提案を行う。
また,大まかな設定特徴選択に基づくプライバシ保護機能選択手法を提案する。
提案手法は,水平および垂直に分割されたデータセットを,二部・多部シナリオで処理できる。
- 参考スコア(独自算出の注目度): 2.055949720959582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection is the process of sieving features, in which informative
features are separated from the redundant and irrelevant ones. This process
plays an important role in machine learning, data mining and bioinformatics.
However, traditional feature selection methods are only capable of processing
centralized datasets and are not able to satisfy today's distributed data
processing needs. These needs require a new category of data processing
algorithms called privacy-preserving feature selection, which protects users'
data by not revealing any part of the data neither in the intermediate
processing nor in the final results. This is vital for the datasets which
contain individuals' data, such as medical datasets. Therefore, it is rational
to either modify the existing algorithms or propose new ones to not only
introduce the capability of being applied to distributed datasets, but also act
responsibly in handling users' data by protecting their privacy. In this paper,
we will review three privacy-preserving feature selection methods and provide
suggestions to improve their performance when any gap is identified. We will
also propose a privacy-preserving feature selection method based on the rough
set feature selection. The proposed method is capable of processing both
horizontally and vertically partitioned datasets in two- and multi-parties
scenarios.
- Abstract(参考訳): 特徴選択(英: Feature selection)とは、情報的特徴と冗長で無関係な特徴を分離する特徴を抽出する過程である。
このプロセスは、機械学習、データマイニング、バイオインフォマティクスにおいて重要な役割を果たす。
しかし、従来の特徴選択手法は集中型データセットのみを処理でき、今日の分散データ処理のニーズを満たすことができない。
これらのニーズは、プライバシ保存機能選択と呼ばれる新しいデータ処理アルゴリズムのカテゴリを必要としており、中間処理でも最終結果でも、データのいかなる部分も明らかにしないことによって、ユーザのデータを保護している。
これは医療データセットのような個人のデータを含むデータセットにとって不可欠である。
したがって、既存のアルゴリズムを変更したり、分散データセットに適用できる能力を導入するだけでなく、プライバシ保護によってユーザのデータを扱うことに責任を負うような新しいアルゴリズムを提案することは合理的である。
本稿では,プライバシ保護機能選択手法を3つ検討し,ギャップが特定された場合にその性能を改善するための提案を行う。
また,大まかな設定特徴選択に基づくプライバシ保護機能選択手法を提案する。
提案手法は,水平および垂直に分割されたデータセットを,二部・多部シナリオで処理できる。
関連論文リスト
- Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - Feature Selection from Differentially Private Correlations [35.187113265093615]
高次元回帰はデータセット内の個々のデータポイントに関する情報をリークすることができる。
相関に基づく順序統計を用いて、データセットから重要な特徴を選択し、それらを民営化する。
提案手法は,多くのデータセット上でのプライベートな特徴選択において,確立されたベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-20T13:54:07Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Deep Feature Selection Using a Novel Complementary Feature Mask [5.904240881373805]
重要度が低い機能を活用することで、機能選択に対処します。
本稿では,新しい補完機能マスクに基づく特徴選択フレームワークを提案する。
提案手法は汎用的であり,既存のディープラーニングに基づく特徴選択手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2022-09-25T18:03:30Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Optimal Data Selection: An Online Distributed View [61.31708750038692]
この問題のオンライン版と分散版のアルゴリズムを開発する。
ランダム選択法は, ランダム選択法よりも5~20%高い性能を示した。
ImageNet と MNIST の学習タスクにおいて、我々の選択方法はランダム選択よりも5-20% 高い性能を示した。
論文 参考訳(メタデータ) (2022-01-25T18:56:16Z) - Privacy preserving n-party scalar product protocol [0.0]
プライバシ保護機械学習は、データを公開することなく、分散データセット上のモデルのトレーニングを可能にする。
プライバシー保護スカラー製品プロトコルは、ベクトルのドット積を公開せずに可能にするもので、その汎用性の一例として人気がある。
本稿では,既存の2党方式に基づく任意の人数の当事者に対するプロトコルの一般化を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:14:53Z) - Federated Feature Selection for Cyber-Physical Systems of Systems [0.3609538870261841]
自動運転車の一群は、データ伝送を99%まで減らし、無視できない情報損失を抑えるために利用する、最適な機能セットに関するコンセンサスを見つける。
以上の結果から、自動運転車の車両群は、データ伝送を99%まで減らし、無視できる情報損失を減らし、最適な機能セットにコンセンサスを見出すことができた。
論文 参考訳(メタデータ) (2021-09-23T12:16:50Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。