論文の概要: UPTON: Preventing Authorship Leakage from Public Text Release via Data
Poisoning
- arxiv url: http://arxiv.org/abs/2211.09717v3
- Date: Wed, 25 Oct 2023 01:48:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 06:01:45.245608
- Title: UPTON: Preventing Authorship Leakage from Public Text Release via Data
Poisoning
- Title(参考訳): UPTON: データ中毒による公開テキストの漏洩防止
- Authors: Ziyao Wang, Thai Le and Dongwon Lee
- Abstract要約: トレーニングサンプルにおける著者の特徴を弱めるためにブラックボックスデータ中毒法を利用した新しいソリューションであるUPTONを提案する。
UPTONがAAモデルの精度を非現実的なレベルに下げる実験的な検証法を提案する。
UPTONは、著者の利用可能なクリーンな文章に基づいてすでに訓練されているAAモデルに有効である。
- 参考スコア(独自算出の注目度): 17.956089294338984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider a scenario where an author-e.g., activist, whistle-blower, with many
public writings wishes to write "anonymously" when attackers may have already
built an authorship attribution (AA) model based off of public writings
including those of the author. To enable her wish, we ask a question "Can one
make the publicly released writings, T, unattributable so that AA models
trained on T cannot attribute its authorship well?" Toward this question, we
present a novel solution, UPTON, that exploits black-box data poisoning methods
to weaken the authorship features in training samples and make released texts
unlearnable. It is different from previous obfuscation works-e.g., adversarial
attacks that modify test samples or backdoor works that only change the model
outputs when triggering words occur. Using four authorship datasets (IMDb10,
IMDb64, Enron, and WJO), we present empirical validation where UPTON
successfully downgrades the accuracy of AA models to the impractical level
(~35%) while keeping texts still readable (semantic similarity>0.9). UPTON
remains effective to AA models that are already trained on available clean
writings of authors.
- Abstract(参考訳): 著者、活動家、内部告発者、多くの公文書が、攻撃者が既に著者の著作を含む公文書を基にした著作物帰属(AA)モデルを構築している可能性がある場合、匿名で書くことを望んでいるシナリオを考える。
彼女の願いを叶えるために、我々は「Tで訓練されたAAモデルがその著者シップをうまく評価できないように、公開の著作であるTを帰属できない」と質問する。
そこで,本研究では,ブラックボックスデータ中毒を駆使して,トレーニングサンプルの著者特性を弱め,公開テキストを学習不能にする新しい手法であるUPTONを提案する。
従来の難読化作業とは違って、例えば、テストサンプルを変更する敵攻撃や、単語のトリガー時にのみモデル出力を変更するバックドア攻撃などである。
4つの著者データセット (IMDb10, IMDb64, Enron, WJO) を用いて, UPTON がテキストの読みやすさを保ちながら, AA モデルの精度を非現実レベル (~35%) にダウングレードする実験的な検証を行った。
UPTONは、著者の利用可能なクリーンな文章に基づいてすでに訓練されているAAモデルに有効である。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - ALISON: Fast and Effective Stylometric Authorship Obfuscation [14.297046770461264]
オーサリング・アトリビューション (AA) とオーサリング・オブファシケーション (AO) は、プライバシ研究の重要性を高めるための2つの課題である。
本稿では,トレーニング/難読化時間を劇的に短縮する実用的なAO手法ALISONを提案する。
また、ALISONは、4つのSOTA AAメソッドがChatGPT生成したテキストのオーサシップを正確に決定するのを防ぐことができることを示した。
論文 参考訳(メタデータ) (2024-02-01T18:22:32Z) - Punctuation Matters! Stealthy Backdoor Attack for Language Models [36.91297828347229]
バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。
いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。
我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T03:26:20Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - Concealed Data Poisoning Attacks on NLP Models [56.794857982509455]
逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
論文 参考訳(メタデータ) (2020-10-23T17:47:06Z) - Natural Backdoor Attack on Text Data [15.35163515187413]
本論文では,NLPモデルに対するテキストバックドア攻撃を提案する。
テキストデータにトリガーを発生させ,修正範囲,人間認識,特殊事例に基づいて,さまざまな種類のトリガーを調査する。
その結果,テキスト分類作業において100%バックドア攻撃の成功率と0.83%の犠牲となる優れた性能を示した。
論文 参考訳(メタデータ) (2020-06-29T16:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。