論文の概要: Federated Learning of Gboard Language Models with Differential Privacy
- arxiv url: http://arxiv.org/abs/2305.18465v1
- Date: Mon, 29 May 2023 07:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:32:59.971452
- Title: Federated Learning of Gboard Language Models with Differential Privacy
- Title(参考訳): 差分プライバシーを持つGboard言語モデルのフェデレーション学習
- Authors: Zheng Xu, Yanxiang Zhang, Galen Andrew, Christopher A. Choquette-Choo,
Peter Kairouz, H. Brendan McMahan, Jesse Rosenstock, Yuanbo Zhang
- Abstract要約: 我々は、Google Keyboard(Gboard)において、フェデレートラーニング(FL)とディファレンシャルプライバシ(DP)で言語モデル(LM)を訓練する。
本稿では,DP-Follow-the-Regularized-Leader (DP-FTRL)citepkairouz21bアルゴリズムを適用し,クライアントデバイスの一様サンプリングを必要とせず,有意義に形式的なDP保証を実現する。
私たちは、Gboardの次のワード予測ニューラルネットワークLMがDP保証されていることを、喜んで発表します。
- 参考スコア(独自算出の注目度): 19.398299628016442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We train language models (LMs) with federated learning (FL) and differential
privacy (DP) in the Google Keyboard (Gboard). We apply the
DP-Follow-the-Regularized-Leader (DP-FTRL)~\citep{kairouz21b} algorithm to
achieve meaningfully formal DP guarantees without requiring uniform sampling of
client devices. To provide favorable privacy-utility trade-offs, we introduce a
new client participation criterion and discuss the implication of its
configuration in large scale systems. We show how quantile-based clip
estimation~\citep{andrew2019differentially} can be combined with DP-FTRL to
adaptively choose the clip norm during training or reduce the hyperparameter
tuning in preparation for training. With the help of pretraining on public
data, we train and deploy more than twenty Gboard LMs that achieve high utility
and $\rho-$zCDP privacy guarantees with $\rho \in (0.2, 2)$, with two models
additionally trained with secure aggregation~\citep{bonawitz2017practical}. We
are happy to announce that all the next word prediction neural network LMs in
Gboard now have DP guarantees, and all future launches of Gboard neural network
LMs will require DP guarantees. We summarize our experience and provide
concrete suggestions on DP training for practitioners.
- Abstract(参考訳): 我々は,Google Keyboard (Gboard) において,フェデレートラーニング (FL) と差分プライバシ (DP) を用いて言語モデル (LM) を訓練する。
我々は,DP-Follow-the-Regularized-Leader (DP-FTRL)~\citep{kairouz21b} アルゴリズムを適用し,クライアントデバイスの一様サンプリングを必要とせずに有意義に形式的なDP保証を実現する。
適切なプライバシ利用のトレードオフを提供するため,新たなクライアント参加基準を導入し,大規模システムにおけるその構成の意義について考察する。
DP-FTRLと組み合わせることで、トレーニング中のクリップ基準を適応的に選択したり、トレーニングの準備のためにハイパーパラメータチューニングを減らしたりすることができることを示す。
公開データの事前トレーニングの助けを借りて、高いユーティリティと$\rho-$zcdpプライバシ保証を達成する20以上のgboard lmsを、$\rho \in (0.2, 2)$でトレーニングし、セキュアアグリゲーションでさらに2つのモデルをトレーニングします。
gboardの次のワード予測ニューラルネットワークlmsがdp保証を持つことを発表して、gboardニューラルネットワークlmsの今後のローンチにはdp保証が必要です。
筆者らの経験を要約し,DP研修に関する具体的な提案を行う。
関連論文リスト
- DMM: Distributed Matrix Mechanism for Differentially-Private Federated Learning using Packed Secret Sharing [51.336015600778396]
フェデレーテッド・ラーニング(FL)は最近、産業とアカデミックの両方で多くの注目を集めています。
FLでは、機械学習モデルは、複数のラウンドにまたがって委員会に配置されたさまざまなエンドユーザのデータを使用して訓練される。
このようなデータは、しばしばセンシティブであるため、FLの主な課題は、モデルの実用性を維持しながらプライバシを提供することである。
論文 参考訳(メタデータ) (2024-10-21T16:25:14Z) - Noise-Aware Differentially Private Regression via Meta-Learning [25.14514068630219]
差別化プライバシ(DP)は、ユーザのプライバシを保護するための金の標準であるが、標準のDPメカニズムはパフォーマンスを著しく損なう。
この問題を緩和する1つのアプローチは、DPがプライベートデータで学習する前にシミュレーションデータ上でモデルを事前訓練することである。
本研究では、シミュレーションデータを用いて、畳み込み条件ニューラルネットワーク(ConvCNP)と改良された機能DPメカニズムを組み合わせたメタ学習モデルをトレーニングする。
論文 参考訳(メタデータ) (2024-06-12T18:11:24Z) - DP-DyLoRA: Fine-Tuning Transformer-Based Models On-Device under Differentially Private Federated Learning using Dynamic Low-Rank Adaptation [15.023077875990614]
フェデレートラーニング(FL)は、クライアントがローカルデータをサーバと共有することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
差分プライバシ(DP)は、クライアントのコントリビューションにランダム性を加えるメカニズムを備えた、正式なプライバシ保証を提供することによって、そのようなリークに対処する。
差分プライバシーと組み合わせてDP-DyLoRAと呼ぶ適応手法を提案する。
論文 参考訳(メタデータ) (2024-05-10T10:10:37Z) - Differentially Private Representation Learning via Image Captioning [51.45515227171524]
画像キャプションとインターネット規模のマルチモーダルデータセットのスケールアップにより,効率的なDP表現学習が可能であることを示す。
LAION-2Bの233Mサブセット上のDPイメージキャプタ(DP-Cap)を,合理的な計算量を用いてスクラッチからトレーニングした。
論文 参考訳(メタデータ) (2024-03-04T21:52:25Z) - Learning to Generate Image Embeddings with User-level Differential
Privacy [31.797461992234457]
DP-FedEmbは、ユーザ毎の感度制御とノイズ付加を備えたフェデレーション学習アルゴリズムの一種である。
数百万のユーザがトレーニングに参加可能な場合,ユーティリティの低下を5%以内でコントロールしながら,強力なユーザレベルのDP保証を$epsilon4$で実現できることを示す。
論文 参考訳(メタデータ) (2022-11-20T01:59:37Z) - An Ensemble Teacher-Student Learning Approach with Poisson Sub-sampling
to Differential Privacy Preserving Speech Recognition [51.20130423303659]
本稿では,Poissonサブサンプルを用いたアンサンブル学習フレームワークを提案する。
DP下での強化を通じて、トレーニングデータから派生した学生モデルは、プライバシ保護なしでトレーニングされたモデルからほとんどモデル劣化を受けない。
提案手法は,<i>Poisson sub-sampling</i>によるプライバシ予算の増幅を行い,同じレベルのプライバシ予算を達成するためにノイズの少ないターゲット予測モデルをトレーニングする。
論文 参考訳(メタデータ) (2022-10-12T16:34:08Z) - DP$^2$-VAE: Differentially Private Pre-trained Variational Autoencoders [26.658723213776632]
DP保証付き変分オートエンコーダ(VAE)のトレーニング機構であるDP$2$-VAEを提案する。
さまざまなプライバシ予算と評価指標の下で,ベースラインよりも優位性を示すために,画像データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-05T23:57:34Z) - Automatic Clipping: Differentially Private Deep Learning Made Easier and
Stronger [39.93710312222771]
サンプルごとのクリッピングは、ディープラーニングモデルのための実用的な差分プライベート(DP)トレーニングを可能にするアルゴリズムの重要なステップである。
本稿では,任意のDPに対してRをチューニングする必要がなくなる自動クリッピング(automatic clipping)という,使い勝手の良い代替手法を提案する。
論文 参考訳(メタデータ) (2022-06-14T19:49:44Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Differentially Private Federated Bayesian Optimization with Distributed
Exploration [48.9049546219643]
我々は、DPを反復アルゴリズムに追加するための一般的なフレームワークを通じて、ディープニューラルネットワークのトレーニングに差分プライバシ(DP)を導入する。
DP-FTS-DEは高い実用性(競争性能)と高いプライバシー保証を実現する。
また,DP-FTS-DEがプライバシとユーティリティのトレードオフを引き起こすことを示すために,実世界の実験も行っている。
論文 参考訳(メタデータ) (2021-10-27T04:11:06Z) - User-Level Privacy-Preserving Federated Learning: Analysis and
Performance Optimization [77.43075255745389]
フェデレートラーニング(FL)は、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。
情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベートな情報を推測することが可能である。
サーバにアップロードする前に、共有モデルに人工ノイズを加えることで、ユーザレベルの差分プライバシー(UDP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-29T10:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。