論文の概要: PETGEN: Personalized Text Generation Attack on Deep Sequence
Embedding-based Classification Models
- arxiv url: http://arxiv.org/abs/2109.06777v1
- Date: Tue, 14 Sep 2021 15:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:24:37.488124
- Title: PETGEN: Personalized Text Generation Attack on Deep Sequence
Embedding-based Classification Models
- Title(参考訳): PETGEN:ディープシークエンベディングに基づく分類モデルに基づく個人化テキスト生成攻撃
- Authors: Bing He, Mustaque Ahamad, Srijan Kumar
- Abstract要約: 悪意のあるユーザは、行動を操作することによって、深い検出モデルを回避することができる。
ここでは、ディープユーザシーケンスの埋め込みに基づく分類モデルに対して、新たな逆攻撃モデルを作成する。
攻撃では、敵は分類器を騙すために新しいポストを生成する。
- 参考スコア(独自算出の注目度): 9.630961791758168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \textit{What should a malicious user write next to fool a detection model?}
Identifying malicious users is critical to ensure the safety and integrity of
internet platforms. Several deep learning based detection models have been
created. However, malicious users can evade deep detection models by
manipulating their behavior, rendering these models of little use. The
vulnerability of such deep detection models against adversarial attacks is
unknown. Here we create a novel adversarial attack model against deep user
sequence embedding-based classification models, which use the sequence of user
posts to generate user embeddings and detect malicious users. In the attack,
the adversary generates a new post to fool the classifier. We propose a novel
end-to-end Personalized Text Generation Attack model, called \texttt{PETGEN},
that simultaneously reduces the efficacy of the detection model and generates
posts that have several key desirable properties. Specifically, \texttt{PETGEN}
generates posts that are personalized to the user's writing style, have
knowledge about a given target context, are aware of the user's historical
posts on the target context, and encapsulate the user's recent topical
interests. We conduct extensive experiments on two real-world datasets (Yelp
and Wikipedia, both with ground-truth of malicious users) to show that
\texttt{PETGEN} significantly reduces the performance of popular deep user
sequence embedding-based classification models. \texttt{PETGEN} outperforms
five attack baselines in terms of text quality and attack efficacy in both
white-box and black-box classifier settings. Overall, this work paves the path
towards the next generation of adversary-aware sequence classification models.
- Abstract(参考訳): 悪意のあるユーザが検出モデルを騙すために、次に書くべきものは何か?
悪意のあるユーザーを特定することは、インターネットプラットフォームの安全性と整合性を保証するために重要である。
ディープラーニングに基づく検出モデルがいくつか作成されている。
しかし、悪意のあるユーザーは、自分の行動を操作し、これらのモデルをほとんど使用せずに、深い検出モデルを避けることができる。
このような深い検出モデルの敵攻撃に対する脆弱性は不明である。
ここでは,ユーザ投稿のシーケンスを用いてユーザ埋め込みを生成し,悪意のあるユーザを検出する,深層ユーザシーケンスの埋め込みに基づく分類モデルに対する,新たな敵攻撃モデルを作成する。
攻撃では、敵は分類器を騙すために新しいポストを生成する。
本稿では,検出モデルの有効性を同時に低減し,いくつかの重要な特性を有するポストを生成する,エンドツーエンドのパーソナライズされたテキスト生成攻撃モデルである \texttt{petgen} を提案する。
具体的には、 \texttt{petgen} はユーザの書き込みスタイルにパーソナライズされたポストを生成し、特定のターゲットコンテキストに関する知識を持ち、ターゲットコンテキストにおけるユーザの履歴ポストを認識し、最近のトピックの興味をカプセル化する。
実世界の2つのデータセット(Yelpとウィキペディア、どちらも悪質なユーザーベース)で広範な実験を行い、‘texttt{PETGEN} が人気のディープユーザーシークエンスに基づく分類モデルの性能を大幅に低下させることを示す。
\texttt{petgen}は、ホワイトボックスとブラックボックスの分類設定の両方において、テキストの品質と攻撃効果の観点から5つの攻撃ベースラインを上回る。
全体として、この研究は、次世代の逆認識シーケンス分類モデルへの道を開くものである。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Mitigating Adversarial Attacks in Federated Learning with Trusted
Execution Environments [1.8240624028534085]
画像ベースアプリケーションでは、敵対的な例は、局所モデルによって誤って分類される人間の目に対してわずかに摂動した画像で構成されている。
PeltaはTrusted Execution Environments(TEEs)を利用した新しい遮蔽機構で、攻撃者が敵のサンプルを作る能力を減らす。
Peltaは6つのホワイトボックスの対人攻撃を緩和する効果を示した。
論文 参考訳(メタデータ) (2023-09-13T14:19:29Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Deconstructing Classifiers: Towards A Data Reconstruction Attack Against
Text Classification Models [2.9735729003555345]
我々はMix And Match攻撃と呼ばれる新たなターゲットデータ再構成攻撃を提案する。
この研究は、分類モデルにおけるデータ再構成攻撃に関連するプライバシーリスクを考慮することの重要性を強調している。
論文 参考訳(メタデータ) (2023-06-23T21:25:38Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z) - Neural network fragile watermarking with no model performance
degradation [28.68910526223425]
モデル性能の劣化を伴わない新しいニューラルネットワーク脆弱な透かしを提案する。
実験の結果,提案手法はモデル性能劣化を伴わずに,悪質な微調整を効果的に検出できることが示唆された。
論文 参考訳(メタデータ) (2022-08-16T07:55:20Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Robust and Verifiable Information Embedding Attacks to Deep Neural
Networks via Error-Correcting Codes [81.85509264573948]
ディープラーニングの時代、ユーザは、サードパーティの機械学習ツールを使用して、ディープニューラルネットワーク(DNN)分類器をトレーニングすることが多い。
情報埋め込み攻撃では、攻撃者は悪意のあるサードパーティの機械学習ツールを提供する。
本研究では,一般的なポストプロセッシング手法に対して検証可能で堅牢な情報埋め込み攻撃を設計することを目的とする。
論文 参考訳(メタデータ) (2020-10-26T17:42:42Z) - TextDecepter: Hard Label Black Box Attack on Text Classifiers [0.0]
自然言語処理(NLP)分類器に対するハードラベルブラックボックス攻撃に対する新しいアプローチを提案する。
このような攻撃シナリオは、感情分析や有害なコンテンツ検出といったセキュリティに敏感なアプリケーションに使われている現実世界のブラックボックスモデルにも適用される。
論文 参考訳(メタデータ) (2020-08-16T08:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。