論文の概要: Two Models are Better than One: Federated Learning Is Not Private For
Google GBoard Next Word Prediction
- arxiv url: http://arxiv.org/abs/2210.16947v1
- Date: Sun, 30 Oct 2022 20:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:09:56.702339
- Title: Two Models are Better than One: Federated Learning Is Not Private For
Google GBoard Next Word Prediction
- Title(参考訳): 2つのモデルが1つより優れている: フェデレーション学習はgoogle gboardの次の単語予測にはプライベートではない
- Authors: Mohamed Suliman, Douglas Leith
- Abstract要約: 我々は、自然言語テキストモデルを訓練する際に、フェデレーション学習に対する新たな攻撃を示す。
GoogleのGBoardアプリで使用される次のワード予測モデルに対する攻撃の有効性について説明する。
これは、特にGBoardが実運用で使用されているため、明らかなプライバシー上の懸念を引き起こす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we present new attacks against federated learning when used to
train natural language text models. We illustrate the effectiveness of the
attacks against the next word prediction model used in Google's GBoard app, a
widely used mobile keyboard app that has been an early adopter of federated
learning for production use. We demonstrate that the words a user types on
their mobile handset, e.g. when sending text messages, can be recovered with
high accuracy under a wide range of conditions and that counter-measures such a
use of mini-batches and adding local noise are ineffective. We also show that
the word order (and so the actual sentences typed) can be reconstructed with
high fidelity. This raises obvious privacy concerns, particularly since GBoard
is in production use.
- Abstract(参考訳): 本稿では,自然言語テキストモデルの訓練に使用されるフェデレーション学習に対する新たな攻撃を提案する。
GoogleのGBoardアプリで使用されている次の単語予測モデルに対する攻撃の有効性について説明する。
携帯端末上でユーザが入力した単語(例えば、テキストメッセージの送信時)は、幅広い条件下で高精度に復元でき、ミニバッチの使用やローカルノイズの追加といった対策は効果がないことを実証する。
また,単語の順序(および実際の文の型付け)を高い忠実度で再構築できることを示す。
これは、特にgboardが実運用中であるため、明らかにプライバシーの懸念を引き起こす。
関連論文リスト
- Remote Timing Attacks on Efficient Language Model Inference [63.79839291641793]
タイミング差を利用してタイミングアタックをマウントできることが示される。
90%以上の精度でユーザの会話の話題を学習することができるかを示す。
相手はブースティング攻撃を利用して、オープンソースのシステム用のメッセージに置かれたPIIを回復することができる。
論文 参考訳(メタデータ) (2024-10-22T16:51:36Z) - The Effects of Input Type and Pronunciation Dictionary Usage in Transfer
Learning for Low-Resource Text-to-Speech [1.1852406625172218]
低音源言語(LRL)の音声合成における音声ラベルと音声特徴を言語間変換学習の入力として比較する。
FastSpeech 2 と LRL West Frisian を用いた実験では,音声の明瞭さと自然さの両面で,音声による特徴が優れていた。
論文 参考訳(メタデータ) (2023-06-01T10:42:56Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Recovering Private Text in Federated Learning of Language Models [30.646865969760412]
フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。
本稿では,言語モデルのフェデレーション学習のための新しい攻撃手法FILMを提案する。
最大128文のバッチサイズからテキストを復元できる可能性を示す。
論文 参考訳(メタデータ) (2022-05-17T17:38:37Z) - Decepticons: Corrupted Transformers Breach Privacy in Federated Learning
for Language Models [58.631918656336005]
悪意のあるパラメータベクトルを配置することで、プライベートなユーザテキストを明らかにする新たな攻撃を提案する。
FLに対する以前の攻撃とは異なり、攻撃はTransformerアーキテクチャとトークンの埋め込みの両方の特徴を利用する。
論文 参考訳(メタデータ) (2022-01-29T22:38:21Z) - Handling Compounding in Mobile Keyboard Input [7.309321705635677]
本稿では,形態的にリッチな言語におけるモバイルユーザのタイピング体験を改善するためのフレームワークを提案する。
スマートフォンのキーボードは典型的には、入力復号化、修正、予測といった言語モデルに依存している機能をサポートしている。
本手法は, 様々な複合言語において, 単語誤り率を約20%削減することを示す。
論文 参考訳(メタデータ) (2022-01-17T15:28:58Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects [1.3786433185027864]
Grapheme-to-Phoneme(G2P)モデルは、単語を発音に変換する。
通常、辞書ベースの手法は構築にかなりの手作業を必要とし、目に見えない単語への適応性が制限されている。
本研究では,小さな辞書を用いながら,目に見えない英語の方言に適応するトランスフォーマーに基づく注意モデルを提案する。
論文 参考訳(メタデータ) (2021-04-08T21:36:21Z) - BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets [6.18447297698017]
本稿では、アラビア語の文が人間が書いたか、ボットが自動生成したかを検出できるトランスファー学習に基づくモデルを提案する。
新しいトランスファーラーニングモデルは、最大98%の精度を得ました。
私たちの知る限り、この研究はARABERTとGPT2を組み合わせ、アラビア語の自動生成テキストを検出し、分類した最初の研究です。
論文 参考訳(メタデータ) (2021-01-22T21:50:38Z) - Emerging App Issue Identification via Online Joint Sentiment-Topic
Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。
AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。
Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文 参考訳(メタデータ) (2020-08-23T06:34:05Z) - Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [109.79957125584252]
変分オートエンコーダ(VAE)は、強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。
本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。
論文 参考訳(メタデータ) (2020-04-05T06:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。