Fugu-MT 論文翻訳(概要): LAMP: Extracting Text from Gradients with Language Model Priors

論文の概要: LAMP: Extracting Text from Gradients with Language Model Priors

arxiv url: http://arxiv.org/abs/2202.08827v1
Date: Thu, 17 Feb 2022 18:49:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-18 17:02:17.403928
Title: LAMP: Extracting Text from Gradients with Language Model Priors
Title（参考訳）: LAMP: 言語モデルでグラディエントからテキストを抽出する
Authors: Dimitar I. Dimitrov, Mislav Balunovi\'c, Nikola Jovanovi\'c, Martin Vechev
Abstract要約: 最近の研究は、センシティブなユーザデータを勾配更新から再構築できることを示し、フェデレートされた学習における重要なプライバシーの約束を破っている。我々は,テキストデータに適した新しい攻撃であるLAMPを提案し,勾配からオリジナルテキストを再構築することに成功した。
参考スコア（独自算出の注目度）: 9.242965489146398
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work shows that sensitive user data can be reconstructed from gradient updates, breaking the key privacy promise of federated learning. While success was demonstrated primarily on image data, these methods do not directly transfer to other domains such as text. In this work, we propose LAMP, a novel attack tailored to textual data, that successfully reconstructs original text from gradients. Our key insight is to model the prior probability of the text with an auxiliary language model, utilizing it to guide the search towards more natural text. Concretely, LAMP introduces a discrete text transformation procedure that minimizes both the reconstruction loss and the prior text probability, as provided by the auxiliary language model. The procedure is alternated with a continuous optimization of the reconstruction loss, which also regularizes the length of the reconstructed embeddings. Our experiments demonstrate that LAMP reconstructs the original text significantly more precisely than prior work: we recover 5x more bigrams and $23\%$ longer subsequences on average. Moreover, we are first to recover inputs from batch sizes larger than 1 for textual models. These findings indicate that gradient updates of models operating on textual data leak more information than previously thought.
Abstract（参考訳）: 最近の研究は、センシティブなユーザデータを勾配更新から再構築できることを示し、フェデレートされた学習における重要なプライバシーの約束を破っている。成功は主に画像データで示されたが、これらの手法はテキストなどの他の領域に直接転送するわけではない。本研究では,テキストデータに合わせた新しい攻撃手法であるlampを提案する。我々の重要な洞察は、テキストの以前の確率を補助言語モデルでモデル化し、検索をより自然なテキストへと導くことである。具体的には、lampは補助言語モデルによって提供されるレコンストラクション損失と以前のテキスト確率の両方を最小化する離散テキスト変換手順を導入する。この手順は、再建された埋め込みの長さを規則化する再構成損失の連続的な最適化と交換される。我々の実験では、LAMPは以前の作業よりもかなり正確に元のテキストを再構築することを示した。さらに,テキストモデルでは,バッチサイズが1より大きい場合から,まず入力を復元する。これらの結果から,テキストデータ上で動作しているモデルの勾配更新は,従来考えられていたよりも情報漏えいが大きいことが示唆された。

関連論文リスト

Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID [44.372336186832584]
本稿では,提案する大規模データベース上でモデルをトレーニングするReID問題について検討する。 MLLM(Multi-modal Large Language Models)による訓練データを得る。画像に対応しない記述中の単語を自動的に識別する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-08T10:15:04Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文参考訳（メタデータ） (2023-10-16T16:42:01Z)
Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-07-13T05:03:26Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)
Generative Negative Text Replay for Continual Vision-Language Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。大量のデータは、通常ストリーミング形式で収集される。本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文参考訳（メタデータ） (2022-10-31T13:42:21Z)
Text Revealer: Private Text Reconstruction via Model Inversion Attacks against Transformers [22.491785618530397]
emphText Revealerを定式化する -- トランスフォーマーを用いたテキスト分類に対するテキスト再構成のための最初のモデル逆転攻撃。我々の攻撃は、ターゲットモデルへのアクセスにより、トレーニングデータに含まれるプライベートテキストを忠実に再構築する。実験により,我々の攻撃はテキスト長の異なるデータセットに対して有効であり,正確さでプライベートテキストを再構築できることが実証された。
論文参考訳（メタデータ） (2022-09-21T17:05:12Z)
Recovering Private Text in Federated Learning of Language Models [30.646865969760412]
フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。本稿では,言語モデルのフェデレーション学習のための新しい攻撃手法FILMを提案する。最大128文のバッチサイズからテキストを復元できる可能性を示す。
論文参考訳（メタデータ） (2022-05-17T17:38:37Z)
Data-to-Text Generation with Iterative Text Editing [3.42658286826597]
本稿では,反復的テキスト編集に基づく新しいデータ・テキスト生成手法を提案する。まず、自明なテンプレートを用いてデータ項目をテキストに変換し、その後、文融合タスクのために訓練されたニューラルモデルにより結果のテキストを反復的に改善する。モデルの出力は単純で、既製の事前訓練言語モデルで再帰的にフィルタリングされる。
論文参考訳（メタデータ） (2020-11-03T13:32:38Z)
Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文参考訳（メタデータ） (2020-10-12T19:42:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。