論文の概要: Universal Adversarial Attacks with Natural Triggers for Text
Classification
- arxiv url: http://arxiv.org/abs/2005.00174v2
- Date: Wed, 7 Apr 2021 21:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 00:12:16.013880
- Title: Universal Adversarial Attacks with Natural Triggers for Text
Classification
- Title(参考訳): テキスト分類のための自然トリガーを用いたユニバーサル・コンバーサリー攻撃
- Authors: Liwei Song, Xinwei Yu, Hsuan-Tung Peng, Karthik Narasimhan
- Abstract要約: 我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
- 参考スコア(独自算出の注目度): 30.74579821832117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has demonstrated the vulnerability of modern text classifiers to
universal adversarial attacks, which are input-agnostic sequences of words
added to text processed by classifiers. Despite being successful, the word
sequences produced in such attacks are often ungrammatical and can be easily
distinguished from natural text. We develop adversarial attacks that appear
closer to natural English phrases and yet confuse classification systems when
added to benign inputs. We leverage an adversarially regularized autoencoder
(ARAE) to generate triggers and propose a gradient-based search that aims to
maximize the downstream classifier's prediction loss. Our attacks effectively
reduce model accuracy on classification tasks while being less identifiable
than prior models as per automatic detection metrics and human-subject studies.
Our aim is to demonstrate that adversarial attacks can be made harder to detect
than previously thought and to enable the development of appropriate defenses.
- Abstract(参考訳): 最近の研究は、テキスト分類器によって処理されたテキストに付加される単語の入力非依存的なシーケンスである普遍的敵攻撃に対する、現代のテキスト分類器の脆弱性を実証している。
成功したにもかかわらず、このような攻撃で生成された単語列は、しばしば非文法的であり、自然なテキストと容易に区別できる。
我々は、自然の英語のフレーズに近づきながら、良心的な入力を加えると分類システムを混乱させる敵攻撃を開発する。
逆正則オートエンコーダ(ARAE)を利用してトリガを生成し,下流の分類器の予測損失を最大化することを目的とした勾配に基づく探索を提案する。
我々の攻撃は、自動検出指標と人-対象研究に基づいて、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低減する。
我々の目標は、敵の攻撃を以前考えられていたよりも検出しにくくし、適切な防御力の開発を可能にすることにある。
関連論文リスト
- Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Adversarial Text Purification: A Large Language Model Approach for
Defense [25.041109219049442]
敵の浄化は、敵の攻撃に対して分類器を保護するための防御機構である。
そこで本稿では,大規模言語モデルの生成能力を生かした,新たな逆文清浄法を提案する。
提案手法は,様々な分類器に対して顕著な性能を示し,攻撃時の精度を平均65%以上向上させる。
論文 参考訳(メタデータ) (2024-02-05T02:36:41Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Order-Disorder: Imitation Adversarial Attacks for Black-box Neural
Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。
重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。
また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文 参考訳(メタデータ) (2022-09-14T09:10:07Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - "That Is a Suspicious Reaction!": Interpreting Logits Variation to
Detect NLP Adversarial Attacks [0.2999888908665659]
敵攻撃は、現在の機械学習研究で直面する大きな課題である。
本研究は, 逆文例のモデルに依存しない検出法を提案する。
論文 参考訳(メタデータ) (2022-04-10T09:24:41Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Generating Label Cohesive and Well-Formed Adversarial Claims [44.29895319592488]
敵攻撃は、訓練されたモデルの重大な脆弱性と欠陥を明らかにする。
本研究は,真理を保存した事実チェックシステムに対して,敵対的な攻撃を発生させる方法について検討する。
生成した攻撃は, クレームの方向性と意味的妥当性を, 従来よりも良好に維持していることがわかった。
論文 参考訳(メタデータ) (2020-09-17T10:50:42Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。