論文の概要: DP-MLM: Differentially Private Text Rewriting Using Masked Language Models
- arxiv url: http://arxiv.org/abs/2407.00637v1
- Date: Sun, 30 Jun 2024 09:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:17:05.179871
- Title: DP-MLM: Differentially Private Text Rewriting Using Masked Language Models
- Title(参考訳): DP-MLM:マスケ言語モデルを用いた個人用テキストの書き直し
- Authors: Stephen Meisenbacher, Maulik Chevli, Juraj Vladika, Florian Matthes,
- Abstract要約: マスク付き言語モデル(MLMs)を利用した個人用テキストの書き直し手法を提案する。
これをシンプルな文脈化手法で実現し、テキストを一度に1つのトークンを書き直す。
エンコーダのみの保存技術を利用することで,従来の方法と比較して,より低い値のvarepsilon$レベルで有効性が得られることがわかった。
- 参考スコア(独自算出の注目度): 4.637328271312331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of text privatization using Differential Privacy has recently taken the form of $\textit{text rewriting}$, in which an input text is obfuscated via the use of generative (large) language models. While these methods have shown promising results in the ability to preserve privacy, these methods rely on autoregressive models which lack a mechanism to contextualize the private rewriting process. In response to this, we propose $\textbf{DP-MLM}$, a new method for differentially private text rewriting based on leveraging masked language models (MLMs) to rewrite text in a semantically similar $\textit{and}$ obfuscated manner. We accomplish this with a simple contextualization technique, whereby we rewrite a text one token at a time. We find that utilizing encoder-only MLMs provides better utility preservation at lower $\varepsilon$ levels, as compared to previous methods relying on larger models with a decoder. In addition, MLMs allow for greater customization of the rewriting mechanism, as opposed to generative approaches. We make the code for $\textbf{DP-MLM}$ public and reusable, found at https://github.com/sjmeis/DPMLM .
- Abstract(参考訳): 差分プライバシーを用いたテキストのプライベート化のタスクは、最近$\textit{text rewriting}$という形式で行われ、入力テキストは生成的(大規模な)言語モデルを使用して難読化される。
これらの手法は、プライバシーを守るために有望な結果を示しているが、これらの手法は、プライベートリライトプロセスのコンテキスト化のメカニズムが欠如している自己回帰モデルに依存している。
これに対応するために,マスク付き言語モデル(MLM)を利用してテキストを意味的に類似した$\textit{and}$ obfuscatedな方法で書き直しを行う,微分プライベートなテキスト書き換え手法である$\textbf{DP-MLM}$を提案する。
これをシンプルな文脈化手法で実現し、テキストを一度に1つのトークンを書き直す。
エンコーダのみのMLMを利用することで,デコーダを持つ大規模モデルに依存する従来の手法と比較して,より低い$\varepsilon$レベルのユーティリティ保存が可能になる。
さらに、MLMは、生成的アプローチとは対照的に、書き換え機構のさらなるカスタマイズを可能にする。
https://github.com/sjmeis/DPMLM で見つけた $\textbf{DP-MLM}$ public で再利用可能なコードを作成します。
関連論文リスト
- Just Rewrite It Again: A Post-Processing Method for Enhanced Semantic Similarity and Privacy Preservation of Differentially Private Rewritten Text [3.3916160303055567]
本稿では,書き直したテキストを元のテキストと整合させることを目標とした,簡単な後処理手法を提案する。
以上の結果から,このような手法は,従来の入力よりも意味論的に類似した出力を生成するだけでなく,経験的プライバシ評価において平均的なスコアがよいテキストを生成することが示唆された。
論文 参考訳(メタデータ) (2024-05-30T08:41:33Z) - Generative Text Steganography with Large Language Model [10.572149957139736]
LLM-Stegaと呼ばれる大規模言語モデルのユーザインタフェースに基づくブラックボックス生成テキストステガノグラフィー手法。
まず、キーワードセットを構築し、秘密メッセージを埋め込むための新しい暗号化されたステガノグラフマッピングを設計する。
総合的な実験により、LLM-Stegaは現在の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-16T02:19:28Z) - HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to Detect Machine-Generated Text? [0.0]
本稿では,SemEval-2024 Task 8, Multigenerator, Multi Domain, and Multilingual Black-Box Machine-Generated Text Detection'のために開発したシステムについて述べる。
重要な発見は、複数のモデルのアンサンブルがなくても、単一のベースモデルは、データ拡張と対照的な学習の助けを借りて、同等のパフォーマンスを持つことができるということです。
論文 参考訳(メタデータ) (2024-02-19T04:11:34Z) - Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models [63.91178922306669]
大規模言語モデル(LLM)に対するテキスト保護機構であるSilent Guardianを紹介する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
本研究では,SGがターゲットテキストを種々の構成で効果的に保護し,保護成功率の約100%を達成できることを示す。
論文 参考訳(メタデータ) (2023-12-15T10:30:36Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - Text Embeddings Reveal (Almost) As Much As Text [86.5822042193058]
テキストの埋め込みに代表される全文を再構築し,テキストの埋め込みに関する問題点を考察する。
埋め込みに条件付けされたna"iveモデルでは性能が良くないが、反復的にテキストを修正・再埋め込みするマルチステップメソッドでは、正確に32text-token$のテキスト入力を92%の費用で回収できることがわかった。
論文 参考訳(メタデータ) (2023-10-10T17:39:03Z) - TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。
この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。
そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文 参考訳(メタデータ) (2023-09-22T15:32:49Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Unsupervised Text Style Transfer with Padded Masked Language Models [25.397832729384064]
Maskerは、スタイル転送のための教師なしのテキスト編集方法である。
完全に教師なしの設定で競争力を発揮する。
低リソース環境では、教師ありメソッドの精度を10%以上向上させる。
論文 参考訳(メタデータ) (2020-10-02T15:33:42Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。