論文の概要: Privacy-Preserving Training of Tree Ensembles over Continuous Data
- arxiv url: http://arxiv.org/abs/2106.02769v1
- Date: Sat, 5 Jun 2021 01:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:37:13.139797
- Title: Privacy-Preserving Training of Tree Ensembles over Continuous Data
- Title(参考訳): 連続データを用いた木組のプライバシー保護訓練
- Authors: Samuel Adams, Chaitali Choudhary, Martine De Cock, Rafael Dowsley,
David Melanson, Anderson C. A. Nascimento, Davis Railsback, Jianwei Shen
- Abstract要約: 分散データ上の決定ツリーのプライバシ保護トレーニングのための既存のプロトコルのほとんどは、その機能がカテゴリ的であることを前提としている。
ソーティングは、MPCで高価な操作であるため、そのような高価なステップを避けるセキュアなプロトコルを見つけることは、プライバシ保護機械学習における関連する問題である。
本稿では,連続的な特徴を持つデータに基づく決定木に基づくモデルのセキュアなトレーニングのための,より効率的な3つの選択肢を提案する。
- 参考スコア(独自算出の注目度): 9.887824375079553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing Secure Multi-Party Computation (MPC) protocols for
privacy-preserving training of decision trees over distributed data assume that
the features are categorical. In real-life applications, features are often
numerical. The standard ``in the clear'' algorithm to grow decision trees on
data with continuous values requires sorting of training examples for each
feature in the quest for an optimal cut-point in the range of feature values in
each node. Sorting is an expensive operation in MPC, hence finding secure
protocols that avoid such an expensive step is a relevant problem in
privacy-preserving machine learning. In this paper we propose three more
efficient alternatives for secure training of decision tree based models on
data with continuous features, namely: (1) secure discretization of the data,
followed by secure training of a decision tree over the discretized data; (2)
secure discretization of the data, followed by secure training of a random
forest over the discretized data; and (3) secure training of extremely
randomized trees (``extra-trees'') on the original data. Approaches (2) and (3)
both involve randomizing feature choices. In addition, in approach (3)
cut-points are chosen randomly as well, thereby alleviating the need to sort or
to discretize the data up front. We implemented all proposed solutions in the
semi-honest setting with additive secret sharing based MPC. In addition to
mathematically proving that all proposed approaches are correct and secure, we
experimentally evaluated and compared them in terms of classification accuracy
and runtime. We privately train tree ensembles over data sets with 1000s of
instances or features in a few minutes, with accuracies that are at par with
those obtained in the clear. This makes our solution orders of magnitude more
efficient than the existing approaches, which are based on oblivious sorting.
- Abstract(参考訳): 既存のセキュアなマルチパーティ計算(mpc)プロトコルの多くは、分散データ上の決定ツリーのプライバシ保存トレーニングのためのものだ。
現実の応用では、特徴はしばしば数値化される。
連続的な値を持つデータ上で決定木を成長させる‘in the clear'’アルゴリズムでは、各ノードの特徴値の範囲で最適なカットポイントを求めるクエストにおいて、各機能のトレーニング例をソートする必要がある。
ソートはmpcの高価な操作であり、そのような高価なステップを避けるセキュアなプロトコルを見つけることは、プライバシ保存機械学習における関連する問題である。
本稿では,(1)データのセキュアな離散化,(2)データのセキュアな離散化,(2)離散化されたデータ上のランダムな森林のセキュアなトレーニング,(3)データ上の極端にランダムな木(`extra-trees'')のセキュアなトレーニング,という,連続的な特徴を持つデータに基づく決定木モデルのセキュアなトレーニングのための,より効率的な3つの選択肢を提案する。
アプローチ (2) と (3) はどちらも特徴の選択をランダム化する。
また、アプローチ(3)では、カットポイントがランダムに選択されるので、データのソートや事前の判別の必要性が軽減される。
追加秘密共有に基づくMPCを用いて,提案手法を準最高設定で実装した。
提案手法がすべて正確かつ安全であることの数学的証明に加えて,分類精度と実行時間の観点から評価・比較を行った。
私たちは、数分間で1000のインスタンスや特徴を持つデータセット上で、ツリーアンサンブルをプライベートにトレーニングします。
これにより、ソリューションの順序が既存のアプローチよりも非常に効率的になります。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Differentially-Private Decision Trees and Provable Robustness to Data
Poisoning [8.649768969060647]
決定木は非線形学習問題に適した解釈可能なモデルである。
この目的のための現在の最先端のアルゴリズムは、小さなプライバシー上の利益のために多くのユーティリティを犠牲にしている。
プライバトレーは個人のヒストグラムに基づいて、小さなプライバシー予算を消費しながら、良好な分割を選択する。
論文 参考訳(メタデータ) (2023-05-24T17:56:18Z) - In all LikelihoodS: How to Reliably Select Pseudo-Labeled Data for
Self-Training in Semi-Supervised Learning [0.0]
自己学習は、半教師あり学習においてシンプルだが効果的な方法である。
本稿では,PSSをより堅牢にモデル化する手法を提案する。
結果は、特にロバスト性 w.r.t. モデル選択がかなりの精度の向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2023-03-02T10:00:37Z) - Discrete Tree Flows via Tree-Structured Permutations [5.929956715430168]
離散フローベースモデルは、離散関数の勾配が未定義あるいはゼロであるため、従来のディープラーニング手法では直接最適化できない。
提案手法は,決定木に基づく離散フローを開発することにより,計算負担を低減し,擬似勾配の必要性を解消することを目的としている。
論文 参考訳(メタデータ) (2022-07-04T23:11:04Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Learning to Hash Naturally Sorts [84.90210592082829]
そこで我々はNaturely-Sorted Hashing (NSH)を導入し,最終結果のソートによる深層ハッシュモデルのトレーニングを行った。
NSHはサンプルのハッシュコードのハミング距離をソートし、それに従って自己教師付きトレーニングのための潜伏した表現を収集する。
Sorted Noise-Contrastive Estimation (SortedNCE) の新たな損失について述べる。
論文 参考訳(メタデータ) (2022-01-31T16:19:02Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Optimal randomized classification trees [0.0]
分類と回帰木(英: Classification and Regression Trees、CART)は、現代の統計学と機械学習における既成の技術である。
CARTはgreedyプロシージャによって構築され、分割予測変数と関連するしきい値を逐次決定する。
この強欲なアプローチは、木を非常に高速に木に分類するが、その性質上、それらの分類精度は他の最先端の手順と競合しないかもしれない。
論文 参考訳(メタデータ) (2021-10-19T11:41:12Z) - Scalable and Provably Accurate Algorithms for Differentially Private
Distributed Decision Tree Learning [34.79337646727395]
本稿では,分散環境での個人差分決定木学習のための,初めて証明可能な精度の高いアルゴリズムを提案する。
本論文では,一般プライバシー保護決定木学習アルゴリズムDP-TopDownを提案し,2つの分散実装を提案する。
論文 参考訳(メタデータ) (2020-12-19T06:09:36Z) - New Oracle-Efficient Algorithms for Private Synthetic Data Release [52.33506193761153]
微分プライベートな合成データを構築するための3つの新しいアルゴリズムを提案する。
アルゴリズムは最悪の場合でも差分プライバシーを満たす。
現状の手法である高次元行列機構 citeMcKennaMHM18 と比較すると,我々のアルゴリズムは大規模作業負荷の精度が向上する。
論文 参考訳(メタデータ) (2020-07-10T15:46:05Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。