論文の概要: UPTON: Unattributable Authorship Text via Data Poisoning
- arxiv url: http://arxiv.org/abs/2211.09717v2
- Date: Sat, 10 Dec 2022 13:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 12:30:32.886540
- Title: UPTON: Unattributable Authorship Text via Data Poisoning
- Title(参考訳): UPTON: データポジショニングによる不当な著者テキスト
- Authors: Ziyao Wang, Thai Le and Dongwon Lee
- Abstract要約: AAモデルのトレーニング過程を乱すためにテキストデータ中毒法を利用した新しいソリューションであるUPTONを提案する。
UPTONはデータ中毒を使用して、トレーニングサンプルのみを摂動させることで作者の特徴を破壊する。
本報告では,(1)UPTONが目標選択法を慎重に設計した場合,テスト精度を約30%まで下げることができることを示す。
- 参考スコア(独自算出の注目度): 16.563619348968416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In online medium such as opinion column in Bloomberg, The Guardian and
Western Journal, aspiring writers post their writings for various reasons with
their names often proudly open. However, it may occur that such a writer wants
to write in other venues anonymously or under a pseudonym (e.g., activist,
whistle-blower). However, if an attacker has already built an accurate
authorship attribution (AA) model based off of the writings from such
platforms, attributing an anonymous writing to the known authorship is
possible. Therefore, in this work, we ask a question "can one make the writings
and texts, T, in the open spaces such as opinion sharing platforms
unattributable so that AA models trained from T cannot attribute authorship
well?" Toward this question, we present a novel solution, UPTON, that exploits
textual data poisoning method to disturb the training process of AA models.
UPTON uses data poisoning to destroy the authorship feature only in training
samples by perturbing them, and try to make released textual data unlearnable
on deep neuron networks. It is different from previous obfuscation works, that
use adversarial attack to modify the test samples and mislead an AA model, and
also the backdoor works, which use trigger words both in test and training
samples and only change the model output when trigger words occur. Using four
authorship datasets (e.g., IMDb10, IMDb64, Enron and WJO), then, we present
empirical validation where: (1)UPTON is able to downgrade the test accuracy to
about 30% with carefully designed target-selection methods. (2)UPTON poisoning
is able to preserve most of the original semantics. The BERTSCORE between the
clean and UPTON poisoned texts are higher than 0.95. The number is very closed
to 1.00, which means no sematic change. (3)UPTON is also robust towards
spelling correction systems.
- Abstract(参考訳): Bloombergの世論コラムやThe Guardian、Western Journalなどのオンラインメディアでは、著者が様々な理由で自分の著作を投稿することを熱望している。
しかし、そのような作家が匿名または偽名(活動家、ホイッスルブロウアーなど)で他の場所で書こうとすることがある。
しかし、攻撃者がそのようなプラットフォームからの書き込みをベースとした正確なオーサシップ属性(AA)モデルを構築している場合、既知のオーサシップへの匿名書き込みが可能である。
そこで本研究では,「意見共有プラットフォームのようなオープンスペースにおいて,t から学習した aa モデルが著作物を適切に属性付けできないように,t という文章やテキストを作成できるのか?
そこで本研究では,テキストによるデータ中毒を利用してAAモデルの学習過程を妨害する新しい手法であるUPTONを提案する。
uptonはデータ中毒を使って、トレーニングサンプルのみの著者シップ機能を破壊し、リリース済みのテキストデータをディープニューロンネットワークで理解不能にしようとする。
従来の難読化作業とは違い、敵攻撃を使用してテストサンプルを変更し、AAモデルを誤解させる、バックドア作業は、テストおよびトレーニングサンプルの両方でトリガーワードを使用し、トリガーワードの発生時にのみモデル出力を変更する、などである。
4つのオーサシップデータセット(IMDb10、IMDb64、Enron、WJOなど)を使用して、(1)UPTONは、慎重に設計されたターゲット選択手法で、テスト精度を約30%まで下げることができる経験的検証を行う。
2)UPTON中毒は、元の意味論の大部分を保存できる。
クリーンテキストと有毒テキストの間のBERTSCOREは0.95以上である。
この数は1.00に非常に閉じられているため、セマティックな変更はない。
(3)UPTONはスペル訂正システムにも頑健である。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - ALISON: Fast and Effective Stylometric Authorship Obfuscation [14.297046770461264]
オーサリング・アトリビューション (AA) とオーサリング・オブファシケーション (AO) は、プライバシ研究の重要性を高めるための2つの課題である。
本稿では,トレーニング/難読化時間を劇的に短縮する実用的なAO手法ALISONを提案する。
また、ALISONは、4つのSOTA AAメソッドがChatGPT生成したテキストのオーサシップを正確に決定するのを防ぐことができることを示した。
論文 参考訳(メタデータ) (2024-02-01T18:22:32Z) - Punctuation Matters! Stealthy Backdoor Attack for Language Models [36.91297828347229]
バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。
いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。
我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T03:26:20Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - Concealed Data Poisoning Attacks on NLP Models [56.794857982509455]
逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
論文 参考訳(メタデータ) (2020-10-23T17:47:06Z) - Natural Backdoor Attack on Text Data [15.35163515187413]
本論文では,NLPモデルに対するテキストバックドア攻撃を提案する。
テキストデータにトリガーを発生させ,修正範囲,人間認識,特殊事例に基づいて,さまざまな種類のトリガーを調査する。
その結果,テキスト分類作業において100%バックドア攻撃の成功率と0.83%の犠牲となる優れた性能を示した。
論文 参考訳(メタデータ) (2020-06-29T16:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。