論文の概要: PETGEN: Personalized Text Generation Attack on Deep Sequence
Embedding-based Classification Models
- arxiv url: http://arxiv.org/abs/2109.06777v1
- Date: Tue, 14 Sep 2021 15:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:24:37.488124
- Title: PETGEN: Personalized Text Generation Attack on Deep Sequence
Embedding-based Classification Models
- Title(参考訳): PETGEN:ディープシークエンベディングに基づく分類モデルに基づく個人化テキスト生成攻撃
- Authors: Bing He, Mustaque Ahamad, Srijan Kumar
- Abstract要約: 悪意のあるユーザは、行動を操作することによって、深い検出モデルを回避することができる。
ここでは、ディープユーザシーケンスの埋め込みに基づく分類モデルに対して、新たな逆攻撃モデルを作成する。
攻撃では、敵は分類器を騙すために新しいポストを生成する。
- 参考スコア(独自算出の注目度): 9.630961791758168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \textit{What should a malicious user write next to fool a detection model?}
Identifying malicious users is critical to ensure the safety and integrity of
internet platforms. Several deep learning based detection models have been
created. However, malicious users can evade deep detection models by
manipulating their behavior, rendering these models of little use. The
vulnerability of such deep detection models against adversarial attacks is
unknown. Here we create a novel adversarial attack model against deep user
sequence embedding-based classification models, which use the sequence of user
posts to generate user embeddings and detect malicious users. In the attack,
the adversary generates a new post to fool the classifier. We propose a novel
end-to-end Personalized Text Generation Attack model, called \texttt{PETGEN},
that simultaneously reduces the efficacy of the detection model and generates
posts that have several key desirable properties. Specifically, \texttt{PETGEN}
generates posts that are personalized to the user's writing style, have
knowledge about a given target context, are aware of the user's historical
posts on the target context, and encapsulate the user's recent topical
interests. We conduct extensive experiments on two real-world datasets (Yelp
and Wikipedia, both with ground-truth of malicious users) to show that
\texttt{PETGEN} significantly reduces the performance of popular deep user
sequence embedding-based classification models. \texttt{PETGEN} outperforms
five attack baselines in terms of text quality and attack efficacy in both
white-box and black-box classifier settings. Overall, this work paves the path
towards the next generation of adversary-aware sequence classification models.
- Abstract(参考訳): 悪意のあるユーザが検出モデルを騙すために、次に書くべきものは何か?
悪意のあるユーザーを特定することは、インターネットプラットフォームの安全性と整合性を保証するために重要である。
ディープラーニングに基づく検出モデルがいくつか作成されている。
しかし、悪意のあるユーザーは、自分の行動を操作し、これらのモデルをほとんど使用せずに、深い検出モデルを避けることができる。
このような深い検出モデルの敵攻撃に対する脆弱性は不明である。
ここでは,ユーザ投稿のシーケンスを用いてユーザ埋め込みを生成し,悪意のあるユーザを検出する,深層ユーザシーケンスの埋め込みに基づく分類モデルに対する,新たな敵攻撃モデルを作成する。
攻撃では、敵は分類器を騙すために新しいポストを生成する。
本稿では,検出モデルの有効性を同時に低減し,いくつかの重要な特性を有するポストを生成する,エンドツーエンドのパーソナライズされたテキスト生成攻撃モデルである \texttt{petgen} を提案する。
具体的には、 \texttt{petgen} はユーザの書き込みスタイルにパーソナライズされたポストを生成し、特定のターゲットコンテキストに関する知識を持ち、ターゲットコンテキストにおけるユーザの履歴ポストを認識し、最近のトピックの興味をカプセル化する。
実世界の2つのデータセット(Yelpとウィキペディア、どちらも悪質なユーザーベース)で広範な実験を行い、‘texttt{PETGEN} が人気のディープユーザーシークエンスに基づく分類モデルの性能を大幅に低下させることを示す。
\texttt{petgen}は、ホワイトボックスとブラックボックスの分類設定の両方において、テキストの品質と攻撃効果の観点から5つの攻撃ベースラインを上回る。
全体として、この研究は、次世代の逆認識シーケンス分類モデルへの道を開くものである。
関連論文リスト
- Are aligned neural networks adversarially aligned? [69.31050597889977]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Deconstructing Classifiers: Towards A Data Reconstruction Attack Against
Text Classification Models [2.9735729003555345]
我々はMix And Match攻撃と呼ばれる新たなターゲットデータ再構成攻撃を提案する。
この研究は、分類モデルにおけるデータ再構成攻撃に関連するプライバシーリスクを考慮することの重要性を強調している。
論文 参考訳(メタデータ) (2023-06-23T21:25:38Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は 標的攻撃と未標的攻撃を含む。
新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文 参考訳(メタデータ) (2022-12-13T08:42:39Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z) - Neural network fragile watermarking with no model performance
degradation [28.68910526223425]
モデル性能の劣化を伴わない新しいニューラルネットワーク脆弱な透かしを提案する。
実験の結果,提案手法はモデル性能劣化を伴わずに,悪質な微調整を効果的に検出できることが示唆された。
論文 参考訳(メタデータ) (2022-08-16T07:55:20Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Robust and Verifiable Information Embedding Attacks to Deep Neural
Networks via Error-Correcting Codes [81.85509264573948]
ディープラーニングの時代、ユーザは、サードパーティの機械学習ツールを使用して、ディープニューラルネットワーク(DNN)分類器をトレーニングすることが多い。
情報埋め込み攻撃では、攻撃者は悪意のあるサードパーティの機械学習ツールを提供する。
本研究では,一般的なポストプロセッシング手法に対して検証可能で堅牢な情報埋め込み攻撃を設計することを目的とする。
論文 参考訳(メタデータ) (2020-10-26T17:42:42Z) - TextDecepter: Hard Label Black Box Attack on Text Classifiers [0.0]
自然言語処理(NLP)分類器に対するハードラベルブラックボックス攻撃に対する新しいアプローチを提案する。
このような攻撃シナリオは、感情分析や有害なコンテンツ検出といったセキュリティに敏感なアプリケーションに使われている現実世界のブラックボックスモデルにも適用される。
論文 参考訳(メタデータ) (2020-08-16T08:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。