論文の概要: Training a Tokenizer for Free with Private Federated Learning
- arxiv url: http://arxiv.org/abs/2203.09943v1
- Date: Tue, 15 Mar 2022 14:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-27 05:13:01.187816
- Title: Training a Tokenizer for Free with Private Federated Learning
- Title(参考訳): 私立フェデレーションラーニングによるフリーの剣術師の育成
- Authors: Eugene Bagdasaryan, Congzheng Song, Rogier van Dalen, Matt Seigel, and
\'Aine Cahill
- Abstract要約: 差分プライバシによるフェデレーション学習は、プライバシを損なうことなく、ユーザのデバイスに分散したプライベートデータ上でモデルをトレーニングすることが可能になる。
トークン化器の訓練には、無制限の語彙からの単語の頻度が必要であり、既存の無制限の語彙を見つけるには、個別のプライバシー予算が必要であることを示す。
追加のプライバシー予算を使わずにトークン化を行う新しい手法を提案する。
- 参考スコア(独自算出の注目度): 13.633558751230536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated learning with differential privacy, i.e. private federated learning
(PFL), makes it possible to train models on private data distributed across
users' devices without harming privacy. PFL is efficient for models, such as
neural networks, that have a fixed number of parameters, and thus a
fixed-dimensional gradient vector. Such models include neural-net language
models, but not tokenizers, the topic of this work. Training a tokenizer
requires frequencies of words from an unlimited vocabulary, and existing
methods for finding an unlimited vocabulary need a separate privacy budget.
A workaround is to train the tokenizer on publicly available data. However,
in this paper we first show that a tokenizer trained on mismatched data results
in worse model performance compared to a privacy-violating "oracle" tokenizer
that accesses user data, with perplexity increasing by 20%. We also show that
sub-word tokenizers are better suited to the federated context than word-level
ones, since they can encode new words, though with more tokens per word.
Second, we propose a novel method to obtain a tokenizer without using any
additional privacy budget. During private federated learning of the language
model, we sample from the model, train a new tokenizer on the sampled
sequences, and update the model embeddings. We then continue private federated
learning, and obtain performance within 1% of the "oracle" tokenizer. Since
this process trains the tokenizer only indirectly on private data, we can use
the "postprocessing guarantee" of differential privacy and thus use no
additional privacy budget.
- Abstract(参考訳): 差分プライバシーによるフェデレーション学習、すなわちプライベートフェデレーション学習(PFL)は、プライバシを損なうことなく、ユーザのデバイスに分散したプライベートデータ上でモデルをトレーニングすることができる。
PFLは、一定の数のパラメータを持つニューラルネットワークのようなモデルに対して効率的であり、したがって固定次元勾配ベクトルである。
このようなモデルには、ニューラルネットワークの言語モデルが含まれているが、トークン化ではない。
トークンライザのトレーニングには、無制限の語彙からの単語の頻度が必要であり、既存の無制限の語彙を見つけるには、別のプライバシー予算が必要である。
回避策は、公開データのトークン化をトレーニングすることだ。
しかし,本論文では,不整合データに基づくトークン化器は,ユーザデータにアクセスするプライバシに違反する"oracle"トークン化器と比較して,モデル性能が20%向上することを示す。
また,単語単位のトークン数が多くても,新しい単語をエンコードできるため,サブワードトークン化は単語単位のコンテクストよりもフェデレーションに適していることを示す。
次に,追加のプライバシー予算を使わずにトークン化を行う新しい手法を提案する。
言語モデルのプライベートな連合学習では、モデルからサンプルを取得し、サンプルシーケンスで新しいトークン化子をトレーニングし、モデル埋め込みを更新します。
その後、プライベートなフェデレーション学習を続け、"oracle"トークンライザの1%以内にパフォーマンスを取得します。
このプロセスは、トークンライザをプライベートデータにのみ間接的にトレーニングするため、差分プライバシーの"ポストプロセッシング保証"を使用することで、追加のプライバシー予算を使用できない。
関連論文リスト
- Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? [112.0422370149713]
我々は、トレーニングデータの分布的構成を明らかにすることを目的として、データ混合推論と呼ぶタスクに取り組む。
従来見過ごされていた情報源であるバイトペアエンコーディング(BPE)トークン化器をベースとした,新たな攻撃手法を提案する。
我々は,自然言語,プログラミング言語,データソースの既知混合に基づいて訓練されたトークン化剤に対して,高い精度で混合比を回復することを示す。
論文 参考訳(メタデータ) (2024-07-23T16:13:22Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Partial Federated Learning [26.357723187375665]
Federated Learning(FL)は、エッジデバイスに制約されたユーザデータに基づいて機械学習モデルをトレーニングする一般的なアルゴリズムである。
そこで我々は、機械学習モデルに、データのサブセットをサーバに提供可能なデータを用いてトレーニングする、Partial Federated Learning (PartialFL) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-03T21:04:36Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - Federated Nearest Neighbor Machine Translation [66.8765098651988]
本稿では,FedNN(FedNN)機械翻訳フレームワークを提案する。
FedNNは1ラウンドの記憶に基づくインタラクションを活用して、異なるクライアント間で知識を共有する。
実験の結果,FedAvgと比較して,FedNNは計算コストと通信コストを著しく削減することがわかった。
論文 参考訳(メタデータ) (2023-02-23T18:04:07Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z) - Submix: Practical Private Prediction for Large-Scale Language Models [32.36729880798025]
最近のデータ抽出攻撃は、言語モデルがいくつかのトレーニングサンプルを冗長に記憶できることを明らかにしている。
SubMixは、言語モデルによるプライバシー侵害を防止するために設計された、プライベートな次世代予測のためのプロトコルである。
SubMixは、何万もの次世代予測を公開してもプライバシを維持する最初のプロトコルである。
論文 参考訳(メタデータ) (2022-01-04T04:23:38Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Compression Boosts Differentially Private Federated Learning [0.7742297876120562]
フェデレートされた学習により、分散エンティティは、自身のデータを共有することなく、共通のモデルを協調的にトレーニングできる。
悪意のあるエンティティが、捕獲された勾配から参加者のトレーニングデータに関するプライベート情報を学ぶことができるような、さまざまな推論や再構築攻撃に対して脆弱なままである。
本稿では,2つのデータセットを用いて,従来の非私的フェデレート学習方式と比較して,通信コストを最大95%削減できることを示す。
論文 参考訳(メタデータ) (2020-11-10T13:11:03Z) - On the Intrinsic Differential Privacy of Bagging [69.70602220716718]
我々は、Bagingが、同じプライバシー予算を持つ最先端の差分プライベート機械学習手法よりも、はるかに高い精度を達成することを示す。
実験結果から,Bagingは,同一のプライバシー予算を持つ最先端の差分プライベート機械学習手法よりも格段に高い精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-08-22T14:17:55Z) - Federated Learning of User Authentication Models [69.93965074814292]
機械学習モデルのプライバシー保護のためのフレームワークであるFederated User Authentication (FedUA)を提案する。
FedUAは、フェデレートされた学習フレームワークを採用して、ユーザが生の入力を共有することなく、共同でモデルをトレーニングできるようにする。
提案手法はプライバシ保護であり,多数のユーザに対してスケーラブルであることを示し,出力層を変更することなく,新たなユーザをトレーニングに追加できるようにした。
論文 参考訳(メタデータ) (2020-07-09T08:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。