論文の概要: S-GBDT: Frugal Differentially Private Gradient Boosting Decision Trees
- arxiv url: http://arxiv.org/abs/2309.12041v2
- Date: Thu, 28 Sep 2023 17:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 19:40:26.031758
- Title: S-GBDT: Frugal Differentially Private Gradient Boosting Decision Trees
- Title(参考訳): S-GBDT: Frugal Differentially Private Gradient Boosting Decision Trees
- Authors: Moritz Kirschte, Thorsten Peinemann, Joshua Stock, Carlos Cotrini,
Esfandiar Mohammadi
- Abstract要約: 勾配向上決定木(GBDT)のプライバシー保護学習は、強力なユーティリティプライバシトレードオフの可能性を秘めている。
差分プライベートなGBDT学習者を導入し,ユーティリティプライバシトレードオフを改善するために4つの主要な手法を利用する。
- 参考スコア(独自算出の注目度): 1.5667026626591396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privacy-preserving learning of gradient boosting decision trees (GBDT) has
the potential for strong utility-privacy tradeoffs for tabular data, such as
census data or medical meta data: classical GBDT learners can extract
non-linear patterns from small sized datasets. The state-of-the-art notion for
provable privacy-properties is differential privacy, which requires that the
impact of single data points is limited and deniable. We introduce a novel
differentially private GBDT learner and utilize four main techniques to improve
the utility-privacy tradeoff. (1) We use an improved noise scaling approach
with tighter accounting of privacy leakage of a decision tree leaf compared to
prior work, resulting in noise that in expectation scales with $O(1/n)$, for
$n$ data points. (2) We integrate individual R\'enyi filters to our method to
learn from data points that have been underutilized during an iterative
training process, which -- potentially of independent interest -- results in a
natural yet effective insight to learning streams of non-i.i.d. data. (3) We
incorporate the concept of random decision tree splits to concentrate privacy
budget on learning leaves. (4) We deploy subsampling for privacy amplification.
Our evaluation shows for the Abalone dataset ($<4k$ training data points) a
$R^2$-score of $0.39$ for $\varepsilon=0.15$, which the closest prior work only
achieved for $\varepsilon=10.0$. On the Adult dataset ($50k$ training data
points) we achieve test error of $18.7\,\%$ for $\varepsilon=0.07$ which the
closest prior work only achieved for $\varepsilon=1.0$. For the Abalone dataset
for $\varepsilon=0.54$ we achieve $R^2$-score of $0.47$ which is very close to
the $R^2$-score of $0.54$ for the nonprivate version of GBDT. For the Adult
dataset for $\varepsilon=0.54$ we achieve test error $17.1\,\%$ which is very
close to the test error $13.7\,\%$ of the nonprivate version of GBDT.
- Abstract(参考訳): 勾配強化決定木(gbdt:gradient boosting decision tree)のプライバシー保護学習は、国勢調査データや医療メタデータなどの表データに対して、強力なユーティリティプライバシートレードオフをもたらす可能性がある。
証明可能なプライバシプロパティに関する最先端の考え方は、差分プライバシであり、単一のデータポイントの影響が制限され、否定可能であることを要求している。
差分プライベートなGBDT学習者を導入し,ユーティリティプライバシトレードオフを改善するために4つの主要なテクニックを利用する。
1) 決定木の葉のプライバシリークを, 従来よりも厳密に会計し, 改良されたノイズスケーリング手法を用いることで, 期待値が$o(1/n)$, かつデータポイントが$n$であるようなノイズを発生させる。
2) 個別のr\'enyiフィルタを本手法に統合し,反復的学習過程において過小に活用されたデータポイントから学習する。
3)無作為な決定木分割の概念を取り入れ,学習の場にプライバシー予算を集中させる。
(4)プライバシー強化のためのサブサンプリングを展開。
我々の評価では、abaloneデータセット($<4k$ トレーニングデータポイント)に対して、$r^2$-scoreが$0.39$ で$\varepsilon=0.15$という値を示しました。
アダルトデータセット(50k$トレーニングデータポイント)では、テストエラーが$18.7\,\%$ for $\varepsilon=0.07$で、最も近い前の作業は$\varepsilon=1.0$でしか得られない。
abalone dataset for $\varepsilon=0.54$ for $r^2$-score of $0.47$ これはgbdtの非プライベートバージョンで$r^2$-scoreが$0.54$に非常に近い。
アダルトデータセットの$\varepsilon=0.54$については、テストエラーが17.1\,\%$で、gbdtの非プライベートバージョンが13.7\,\%$に非常に近い。
関連論文リスト
- Almost Minimax Optimal Best Arm Identification in Piecewise Stationary Linear Bandits [55.957560311008926]
そこで本研究では,各文脈の平均値によって腕の質を計測するPSLBモデルを提案する。
PS$varepsilon$BAI$+$は、$varepsilon$-optimal armを、確率$ge 1-delta$と最小限のサンプルで識別することが保証される。
論文 参考訳(メタデータ) (2024-10-10T06:15:42Z) - Private Mean Estimation with Person-Level Differential Privacy [6.621676316292624]
複数のサンプルを持つ場合の個人レベルの個人別平均推定について検討した。
我々は、計算効率のよいアルゴリズムを、純粋DPで、計算効率の悪いアルゴリズムを、ほぼ一致する下界は、近似DPの最も寛容な場合を抑える。
論文 参考訳(メタデータ) (2024-05-30T18:20:35Z) - LDPKiT: Recovering Utility in LDP Schemes by Training with Noise^2 [7.879470113673807]
LDPKiTは,知識伝達による地域差分とユーティリティ保存推論の略である。
CIFAR-10, Fashion-MNIST, SVHN, CARER NLPデータセットを用いた実験により, LDPKiTはプライバシーを損なうことなく実用性を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-25T21:53:58Z) - Scaling Up Differentially Private LASSO Regularized Logistic Regression
via Faster Frank-Wolfe Iterations [51.14495595270775]
我々は,Frank-Wolfeアルゴリズムを$L_1$のペナル化線形回帰に適応させ,スパース入力を認識し,有効利用する。
この方法では,プライバシパラメータ$epsilon$の値とデータセットの分散度に応じて,最大2,200times$の係数でランタイムを削減できることを示す。
論文 参考訳(メタデータ) (2023-10-30T19:52:43Z) - Analyzing Privacy Leakage in Machine Learning via Multiple Hypothesis
Testing: A Lesson From Fano [83.5933307263932]
本研究では,離散データに対するデータ再構成攻撃について検討し,仮説テストの枠組みの下で解析する。
基礎となるプライベートデータが$M$のセットから値を取ると、ターゲットのプライバシパラメータ$epsilon$が$O(log M)$になる。
論文 参考訳(メタデータ) (2022-10-24T23:50:12Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Locally Differentially Private Reinforcement Learning for Linear Mixture
Markov Decision Processes [78.27542864367821]
強化学習(RL)アルゴリズムは、ユーザのプライベートで機密性の高いデータに依存するパーソナライズされたサービスを提供するために使用することができる。
ユーザのプライバシを保護するために、プライバシ保護RLアルゴリズムが要求されている。
線形混合MDPと呼ばれるマルコフ決定過程(MDP)のクラスを学習するための新しい$(varepsilon, delta)$-LDPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T17:44:09Z) - Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。
個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。
プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文 参考訳(メタデータ) (2021-02-23T18:25:13Z) - BUDS: Balancing Utility and Differential Privacy by Shuffling [3.618133010429131]
シャッフルやtextitBUDS によるユーティリティと差分プライバシーのバランスをとることは、クラウドソースの統計データベースへのアプローチである。
損失推定法とリスク最小化法を併用したワンホット符号化と反復シャッフル法により,新しいアルゴリズムを提案する。
バランスのとれたユーティリティとプライバシの実証テストの間、BUDSは$epsilon = 0.02$を生成します。
論文 参考訳(メタデータ) (2020-06-07T11:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。