論文の概要: Recovering Private Text in Federated Learning of Language Models
- arxiv url: http://arxiv.org/abs/2205.08514v1
- Date: Tue, 17 May 2022 17:38:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 14:51:37.610343
- Title: Recovering Private Text in Federated Learning of Language Models
- Title(参考訳): 言語モデルのフェデレーション学習におけるプライベートテキストの復元
- Authors: Samyak Gupta, Yangsibo Huang, Zexuan Zhong, Tianyu Gao, Kai Li, Danqi
Chen
- Abstract要約: フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。
本稿では,言語モデルのフェデレーション学習のための新しい攻撃手法FILMを提案する。
最大128文のバッチサイズからテキストを復元できる可能性を示す。
- 参考スコア(独自算出の注目度): 30.646865969760412
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Federated learning allows distributed users to collaboratively train a model
while keeping each user's data private. Recently, a growing body of work has
demonstrated that an eavesdropping attacker can effectively recover image data
from gradients transmitted during federated learning. However, little progress
has been made in recovering text data. In this paper, we present a novel attack
method FILM for federated learning of language models -- for the first time, we
show the feasibility of recovering text from large batch sizes of up to 128
sentences. Different from image-recovery methods which are optimized to match
gradients, we take a distinct approach that first identifies a set of words
from gradients and then directly reconstructs sentences based on beam search
and a prior-based reordering strategy. The key insight of our attack is to
leverage either prior knowledge in pre-trained language models or memorization
during training. Despite its simplicity, we demonstrate that FILM can work well
with several large-scale datasets -- it can extract single sentences with high
fidelity even for large batch sizes and recover multiple sentences from the
batch successfully if the attack is applied iteratively. We hope our results
can motivate future work in developing stronger attacks as well as new defense
methods for training language models in federated learning. Our code is
publicly available at https://github.com/Princeton-SysML/FILM.
- Abstract(参考訳): フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。
近年,eavesdropping攻撃者が,フェデレート学習中に送信された勾配から画像データを効果的に回収できることが実証されている。
しかし,テキストデータの復元にはほとんど進展がなかった。
本稿では,言語モデルのフェデレーション学習のための新しい攻撃法フィルムを提案する。本論文では,最大128文のバッチサイズからテキストを復元する可能性を示す。
勾配に合うように最適化された画像復元法と異なり、まず勾配から単語の集合を識別し、ビーム探索と事前の順序付け戦略に基づいて文を直接再構成する。
我々の攻撃の鍵となる洞察は、事前訓練された言語モデルにおける事前の知識を利用するか、トレーニング中に暗記するかである。
そのシンプルさにもかかわらず、フィルムはいくつかの大規模データセットでうまく動作できることを実証する -- 大規模なバッチサイズであっても高い忠実度を持つ単一文を抽出し、攻撃を反復的に適用すれば、バッチから複数の文を回収することができる。
我々の研究成果は、より強力な攻撃を開発するための今後の取り組みと、フェデレートラーニングにおける言語モデルのトレーニングのための新しい防衛方法の動機となることを願っている。
私たちのコードはhttps://github.com/Princeton-SysML/FILMで公開されています。
関連論文リスト
- Learning High-Quality and General-Purpose Phrase Representations [9.246374019271938]
フレーズ表現は、データサイエンスと自然言語処理において重要な役割を果たす。
現在の最先端手法では、フレーズ埋め込みのための訓練済み言語モデルを微調整する。
文脈自由な方法で句表現を学習するための改良されたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T22:32:31Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - LAMP: Extracting Text from Gradients with Language Model Priors [9.242965489146398]
最近の研究は、センシティブなユーザデータを勾配更新から再構築できることを示し、フェデレートされた学習における重要なプライバシーの約束を破っている。
我々は,テキストデータに適した新しい攻撃であるLAMPを提案し,勾配からオリジナルテキストを再構築することに成功した。
論文 参考訳(メタデータ) (2022-02-17T18:49:25Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。