論文の概要: LAMP: Extracting Text from Gradients with Language Model Priors
- arxiv url: http://arxiv.org/abs/2202.08827v1
- Date: Thu, 17 Feb 2022 18:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 17:02:17.403928
- Title: LAMP: Extracting Text from Gradients with Language Model Priors
- Title(参考訳): LAMP: 言語モデルでグラディエントからテキストを抽出する
- Authors: Dimitar I. Dimitrov, Mislav Balunovi\'c, Nikola Jovanovi\'c, Martin
Vechev
- Abstract要約: 最近の研究は、センシティブなユーザデータを勾配更新から再構築できることを示し、フェデレートされた学習における重要なプライバシーの約束を破っている。
我々は,テキストデータに適した新しい攻撃であるLAMPを提案し,勾配からオリジナルテキストを再構築することに成功した。
- 参考スコア(独自算出の注目度): 9.242965489146398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work shows that sensitive user data can be reconstructed from gradient
updates, breaking the key privacy promise of federated learning. While success
was demonstrated primarily on image data, these methods do not directly
transfer to other domains such as text. In this work, we propose LAMP, a novel
attack tailored to textual data, that successfully reconstructs original text
from gradients. Our key insight is to model the prior probability of the text
with an auxiliary language model, utilizing it to guide the search towards more
natural text. Concretely, LAMP introduces a discrete text transformation
procedure that minimizes both the reconstruction loss and the prior text
probability, as provided by the auxiliary language model. The procedure is
alternated with a continuous optimization of the reconstruction loss, which
also regularizes the length of the reconstructed embeddings. Our experiments
demonstrate that LAMP reconstructs the original text significantly more
precisely than prior work: we recover 5x more bigrams and $23\%$ longer
subsequences on average. Moreover, we are first to recover inputs from batch
sizes larger than 1 for textual models. These findings indicate that gradient
updates of models operating on textual data leak more information than
previously thought.
- Abstract(参考訳): 最近の研究は、センシティブなユーザデータを勾配更新から再構築できることを示し、フェデレートされた学習における重要なプライバシーの約束を破っている。
成功は主に画像データで示されたが、これらの手法はテキストなどの他の領域に直接転送するわけではない。
本研究では,テキストデータに合わせた新しい攻撃手法であるlampを提案する。
我々の重要な洞察は、テキストの以前の確率を補助言語モデルでモデル化し、検索をより自然なテキストへと導くことである。
具体的には、lampは補助言語モデルによって提供されるレコンストラクション損失と以前のテキスト確率の両方を最小化する離散テキスト変換手順を導入する。
この手順は、再建された埋め込みの長さを規則化する再構成損失の連続的な最適化と交換される。
我々の実験では、LAMPは以前の作業よりもかなり正確に元のテキストを再構築することを示した。
さらに,テキストモデルでは,バッチサイズが1より大きい場合から,まず入力を復元する。
これらの結果から,テキストデータ上で動作しているモデルの勾配更新は,従来考えられていたよりも情報漏えいが大きいことが示唆された。
関連論文リスト
- Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。
この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。
そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文 参考訳(メタデータ) (2023-09-22T15:32:49Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Text Revealer: Private Text Reconstruction via Model Inversion Attacks
against Transformers [22.491785618530397]
emphText Revealerを定式化する -- トランスフォーマーを用いたテキスト分類に対するテキスト再構成のための最初のモデル逆転攻撃。
我々の攻撃は、ターゲットモデルへのアクセスにより、トレーニングデータに含まれるプライベートテキストを忠実に再構築する。
実験により,我々の攻撃はテキスト長の異なるデータセットに対して有効であり,正確さでプライベートテキストを再構築できることが実証された。
論文 参考訳(メタデータ) (2022-09-21T17:05:12Z) - Recovering Private Text in Federated Learning of Language Models [30.646865969760412]
フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。
本稿では,言語モデルのフェデレーション学習のための新しい攻撃手法FILMを提案する。
最大128文のバッチサイズからテキストを復元できる可能性を示す。
論文 参考訳(メタデータ) (2022-05-17T17:38:37Z) - Data-to-Text Generation with Iterative Text Editing [3.42658286826597]
本稿では,反復的テキスト編集に基づく新しいデータ・テキスト生成手法を提案する。
まず、自明なテンプレートを用いてデータ項目をテキストに変換し、その後、文融合タスクのために訓練されたニューラルモデルにより結果のテキストを反復的に改善する。
モデルの出力は単純で、既製の事前訓練言語モデルで再帰的にフィルタリングされる。
論文 参考訳(メタデータ) (2020-11-03T13:32:38Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。