論文の概要: Can Public Large Language Models Help Private Cross-device Federated Learning?
- arxiv url: http://arxiv.org/abs/2305.12132v2
- Date: Fri, 12 Apr 2024 21:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 00:17:02.262991
- Title: Can Public Large Language Models Help Private Cross-device Federated Learning?
- Title(参考訳): パブリックな大規模言語モデルは、プライベートなデバイス間フェデレーション学習に役立つか?
- Authors: Boxin Wang, Yibo Jacky Zhang, Yuan Cao, Bo Li, H. Brendan McMahan, Sewoong Oh, Zheng Xu, Manzil Zaheer,
- Abstract要約: 言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
- 参考スコア(独自算出の注目度): 58.05449579773249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study (differentially) private federated learning (FL) of language models. The language models in cross-device FL are relatively small, which can be trained with meaningful formal user-level differential privacy (DP) guarantees when massive parallelism in training is enabled by the participation of a moderate size of users. Recently, public data has been used to improve privacy-utility trade-offs for both large and small language models. In this work, we provide a systematic study of using large-scale public data and LLMs to help differentially private training of on-device FL models, and further improve the privacy-utility tradeoff by techniques of distillation. Moreover, we propose a novel distribution matching algorithm with theoretical grounding to sample public data close to private data distribution, which significantly improves the sample efficiency of (pre-)training on public data. The proposed method is efficient and effective for training private models by taking advantage of public data, especially for customized on-device architectures that do not have ready-to-use pre-trained models.
- Abstract(参考訳): 言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
デバイス間FLの言語モデルは比較的小さく、適度なサイズのユーザの参加によってトレーニングにおける大規模な並列化が可能になった場合、意味のあるユーザレベルの差分プライバシー(DP)をトレーニングすることができる。
近年,大規模な言語モデルと小規模な言語モデルの両方において,プライバシとユーティリティのトレードオフを改善するために公開データが使用されている。
本研究では,大規模公共データとLCMを用いてデバイス上でのFLモデルの個人差分訓練を支援し,蒸留技術によるプライバシー利用トレードオフをさらに改善するための体系的研究を行う。
また,提案手法では,提案手法を用いて,個人データに近接する公開データのサンプル化を理論的根拠とした新しい分布マッチングアルゴリズムを提案し,公開データに対する事前学習のサンプル効率を大幅に向上させる。
提案手法は,公開データを活用することにより,プライベートモデルのトレーニングに有効であり,特に事前訓練済みのモデルを持たないデバイス上でのカスタマイズに有効である。
関連論文リスト
- Prompt Public Large Language Models to Synthesize Data for Private On-device Applications [5.713077600587505]
本稿では,DP と FL でトレーニングしたデバイス上での言語モデルにおいて,公開データに基づいてトレーニングした大規模言語モデル (LLM) が事前学習データの質を向上する方法について検討する。
合成データセットに事前学習したモデルでは, 単語予測精度が19.0%, 22.8%向上した。
実験では, プライベートデータにアクセスしなくても, プライベートデータに近いデータを合成する上でのLCMの強みを実証した。
論文 参考訳(メタデータ) (2024-04-05T19:14:14Z) - Tunable Soft Prompts are Messengers in Federated Learning [55.924749085481544]
フェデレートラーニング(FL)は、複数の参加者が分散データソースを使用して機械学習モデルを協調的にトレーニングすることを可能にする。
FLにおけるモデルプライバシ保護の欠如は無視できない課題となっている。
そこで本研究では,ソフトプロンプトによって参加者間の情報交換を実現する新しいFLトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T11:01:10Z) - FedPDC:Federated Learning for Public Dataset Correction [1.5533842336139065]
フェデレート学習は、非IIDシナリオにおける従来の機械学習よりも分類精度が低い。
局所モデルのアグリゲーションモードと局所学習の損失関数を最適化するために,新しいアルゴリズムであるFedPDCを提案する。
多くのベンチマーク実験において、FedPDCは極めて不均衡なデータ分布の場合、グローバルモデルの精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-02-24T08:09:23Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Personalization Improves Privacy-Accuracy Tradeoffs in Federated
Optimization [57.98426940386627]
局所的な学習とプライベートな集中学習の協調は、総合的に有用であり、精度とプライバシのトレードオフを改善していることを示す。
合成および実世界のデータセットに関する実験により理論的結果について述べる。
論文 参考訳(メタデータ) (2022-02-10T20:44:44Z) - PFA: Privacy-preserving Federated Adaptation for Effective Model
Personalization [6.66389628571674]
フェデレートラーニング(FL)は、プライバシを改善した分散機械学習パラダイムとして普及している。
本稿では,より優れたパーソナライズ結果を得るために,訓練されたモデルをフェデレーション方式で適応させることを目的とした,フェデレーション適応と呼ばれる新しい概念を提案する。
PFA(Privacy-preserving Federated Adaptation)を実現するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-02T08:07:34Z) - Constrained Differentially Private Federated Learning for Low-bandwidth
Devices [1.1470070927586016]
本稿では,新しいプライバシー保護型連合学習方式を提案する。
これは、差分プライバシーに基づく理論上のプライバシー保証を提供する。
上流と下流の帯域幅を標準のフェデレート学習と比較して最大99.9%削減する。
論文 参考訳(メタデータ) (2021-02-27T22:25:06Z) - WAFFLe: Weight Anonymized Factorization for Federated Learning [88.44939168851721]
データが機密性やプライベート性を持つドメインでは、ローカルデバイスを離れることなく、分散的に学習できるメソッドには大きな価値があります。
本稿では,フェデレートラーニングのためのウェイト匿名化因子化(WAFFLe)を提案する。これは,インド・バフェット・プロセスとニューラルネットワークの重み要因の共有辞書を組み合わせたアプローチである。
論文 参考訳(メタデータ) (2020-08-13T04:26:31Z) - Think Locally, Act Globally: Federated Learning with Local and Global
Representations [92.68484710504666]
フェデレートラーニング(Federated Learning)とは、複数のデバイスに分散したプライベートデータ上でモデルをトレーニングする手法である。
本稿では,各デバイス上でコンパクトな局所表現を共同で学習する新しいフェデレーション学習アルゴリズムを提案する。
また、プライバシが鍵となる実世界のモバイルデータから、パーソナライズされた気分予測のタスクを評価する。
論文 参考訳(メタデータ) (2020-01-06T12:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。