論文の概要: Unveiling Vulnerability of Self-Attention
- arxiv url: http://arxiv.org/abs/2402.16470v1
- Date: Mon, 26 Feb 2024 10:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 13:43:20.587042
- Title: Unveiling Vulnerability of Self-Attention
- Title(参考訳): 自己注意の脆弱性の解消
- Authors: Khai Jiet Liong, Hongqiu Wu, Hai Zhao
- Abstract要約: 事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
- 参考スコア(独自算出の注目度): 61.85150061213987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) are shown to be vulnerable to minor word
changes, which poses a big threat to real-world systems. While previous studies
directly focus on manipulating word inputs, they are limited by their means of
generating adversarial samples, lacking generalization to versatile real-world
attack. This paper studies the basic structure of transformer-based PLMs, the
self-attention (SA) mechanism. (1) We propose a powerful perturbation technique
\textit{HackAttend}, which perturbs the attention scores within the SA matrices
via meticulously crafted attention masks. We show that state-of-the-art PLMs
fall into heavy vulnerability that minor attention perturbations $(1\%)$ can
produce a very high attack success rate $(98\%)$. Our paper expands the
conventional text attack of word perturbations to more general structural
perturbations. (2) We introduce \textit{S-Attend}, a novel smoothing technique
that effectively makes SA robust via structural perturbations. We empirically
demonstrate that this simple yet effective technique achieves robust
performance on par with adversarial training when facing various text
attackers. Code is publicly available at \url{github.com/liongkj/HackAttend}.
- Abstract(参考訳): 事前学習された言語モデル(plm)は、小さな単語の変更に対して脆弱であることが示され、現実世界のシステムに大きな脅威となる。
従来の研究は単語入力を直接操作することに重点を置いていたが、それらは敵のサンプルを生成する方法によって制限されており、汎用的な現実世界攻撃への一般化が欠如している。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
1) 注意深いアテンションマスクを用いて,sa行列内のアテンションスコアを乱す強力な摂動手法である \textit{hackattend} を提案する。
我々は、最先端plmが重大な脆弱性に陥り、わずかな注意喚起値(1\%)$が非常に高い攻撃成功率$(98\%)$が得られることを示した。
本稿では,従来の単語摂動のテキスト攻撃を,より一般的な構造摂動に拡張する。
2) 構造的摂動によりSAを効果的に堅牢にする新しい平滑化技術である「textit{S-Attend}」を導入する。
我々は,この単純で効果的な手法が,種々のテキスト攻撃者に対して対人訓練と同等の堅牢な性能を実現することを実証的に実証した。
コードは \url{github.com/liongkj/HackAttend} で公開されている。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Sparse and Transferable Universal Singular Vectors Attack [5.498495800909073]
そこで本研究では, よりスムーズなホワイトボックス対逆攻撃を提案する。
我々のアプローチは、ジャコビアン行列の隠れた層の$(p,q)$-singularベクトルにスパーシティを提供するトラルキャットパワーに基づいている。
本研究は,攻撃をスパースする最先端モデルの脆弱性を実証し,堅牢な機械学習システムの開発の重要性を強調した。
論文 参考訳(メタデータ) (2024-01-25T09:21:29Z) - COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in
Language Models [4.776465250559034]
ブラックボックスシナリオにおける手動テンプレートに対するプロンプトベースの逆攻撃を提案する。
まず,手動テンプレートを個別に分割するための文字レベルと単語レベルのアプローチを設計する。
そして、上記の破壊的アプローチに基づく攻撃に対する欲求的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:53:42Z) - Phrase-level Textual Adversarial Attack with Label Preservation [34.42846737465045]
本稿では,フレーズレベルの摂動を通じて対数サンプルを生成するPhrase-Level Textual Adrial aTtack (PLAT)を提案する。
PLATは強力なベースラインよりも攻撃効率が優れ、ラベルの一貫性も優れている。
論文 参考訳(メタデータ) (2022-05-22T02:22:38Z) - SemAttack: Natural Textual Attacks via Different Semantic Spaces [26.97034787803082]
本研究では,異なる意味摂動関数を構築することで,自然な逆文を生成するための効率的なフレームワークを提案する。
SemAttackは、攻撃の成功率の高い異なる言語に対して、敵対的なテキストを生成することができることを示す。
我々の生成した敵対的テキストは自然であり、人間のパフォーマンスにはほとんど影響しない。
論文 参考訳(メタデータ) (2022-05-03T03:44:03Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - MixNet for Generalized Face Presentation Attack Detection [63.35297510471997]
我々は、プレゼンテーションアタックを検出するための、TextitMixNetと呼ばれるディープラーニングベースのネットワークを提案している。
提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを利用して,各攻撃カテゴリの特徴マッピングを学習する。
論文 参考訳(メタデータ) (2020-10-25T23:01:13Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。