論文の概要: Choosing Public Datasets for Private Machine Learning via Gradient
Subspace Distance
- arxiv url: http://arxiv.org/abs/2303.01256v1
- Date: Thu, 2 Mar 2023 13:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:21:16.269372
- Title: Choosing Public Datasets for Private Machine Learning via Gradient
Subspace Distance
- Title(参考訳): 勾配部分空間距離によるプライベート機械学習のためのパブリックデータセットの選択
- Authors: Xin Gu, Gautam Kamath, Zhiwei Steven Wu
- Abstract要約: 差分的なプライベート勾配降下は、各反復にノイズを注入することで、モデルパラメータの数に応じてノイズの大きさが増加するモデルトレーニングを民営化する。
近年の研究では、パブリックデータによって規定される部分空間に勾配を投影することにより、パブリックデータをプライベート機械学習に活用することでノイズを低減できることが示唆されている。
我々は,公立と私設の例の勾配の低次元部分空間距離を測定することで,公開データセットを選択するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 35.653510597396114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentially private stochastic gradient descent privatizes model training
by injecting noise into each iteration, where the noise magnitude increases
with the number of model parameters. Recent works suggest that we can reduce
the noise by leveraging public data for private machine learning, by projecting
gradients onto a subspace prescribed by the public data. However, given a
choice of public datasets, it is not a priori clear which one may be most
appropriate for the private task. We give an algorithm for selecting a public
dataset by measuring a low-dimensional subspace distance between gradients of
the public and private examples. We provide theoretical analysis demonstrating
that the excess risk scales with this subspace distance. This distance is easy
to compute and robust to modifications in the setting. Empirical evaluation
shows that trained model accuracy is monotone in this distance.
- Abstract(参考訳): 異なるプライベート確率勾配降下は、各繰り返しにノイズを注入することで、モデルパラメータの数に応じてノイズの大きさが増加するモデルトレーニングを民営化する。
最近の研究は、パブリックデータによって指定されたサブスペースに勾配を投影することで、プライベート機械学習のためにパブリックデータを活用することでノイズを低減できることを示唆している。
しかし、公開データセットの選択を考えると、プライベートタスクに最も適したデータセットがどれであるかは事前には明確ではない。
我々は,公立と私設の例の勾配の低次元部分空間距離を測定することで,公開データセットを選択するアルゴリズムを提案する。
この部分空間距離で余剰リスクがスケールすることを示す理論的解析を行う。
この距離は計算が容易で、設定の変更に対して堅牢である。
実験的な評価は、訓練されたモデルの精度がこの距離で単調であることを示している。
関連論文リスト
- Certification for Differentially Private Prediction in Gradient-Based Training [36.686002369773014]
我々は凸緩和と有界伝播を用いて、予測の局所的および滑らかな感度の証明可能な上界を計算する。
このバウンダリによって、プライベートな予測設定で付加されるノイズの規模を減らしたり、プライバシ会計を改善することができます。
論文 参考訳(メタデータ) (2024-06-19T10:47:00Z) - Pre-trained Perceptual Features Improve Differentially Private Image
Generation [8.659595986100738]
差分降下勾配(DP-SGD)を用いた中等度生成モデルの訓練も困難である。
私たちは、情報のある公開データセット上に適切な、関連する表現を構築し、その表現でプライベートデータをモデル化することを学びます。
私たちの研究は、プライベートと非プライベートの深層生成モデルの間のギャップを減らすための、シンプルで強力な基盤を導入しています。
論文 参考訳(メタデータ) (2022-05-25T16:46:01Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for
Private Learning [74.73901662374921]
差分プライベートモデルは、モデルが多数のトレーニング可能なパラメータを含む場合、ユーティリティを劇的に劣化させる。
偏微分プライベート深層モデルの精度向上のためのアルゴリズムemphGradient Embedding Perturbation (GEP)を提案する。
論文 参考訳(メタデータ) (2021-02-25T04:29:58Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - A One-Pass Private Sketch for Most Machine Learning Tasks [48.17461258268463]
差別化プライバシ(DP)は、正式な証明可能な保証を通じて、プライバシとユーティリティのトレードオフを説明する魅力的なプライバシ定義である。
本稿では,回帰,分類,密度推定など,多数の機械学習タスクをサポートするプライベートスケッチを提案する。
このスケッチは,局所性に敏感なハッシュをインデックス化して,効率的なワンパスアルゴリズムで構築したランダムな一致テーブルで構成されている。
論文 参考訳(メタデータ) (2020-06-16T17:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。