論文の概要: Unveiling Vulnerability of Self-Attention
- arxiv url: http://arxiv.org/abs/2402.16470v1
- Date: Mon, 26 Feb 2024 10:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 13:43:20.587042
- Title: Unveiling Vulnerability of Self-Attention
- Title(参考訳): 自己注意の脆弱性の解消
- Authors: Khai Jiet Liong, Hongqiu Wu, Hai Zhao
- Abstract要約: 事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
- 参考スコア(独自算出の注目度): 61.85150061213987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) are shown to be vulnerable to minor word
changes, which poses a big threat to real-world systems. While previous studies
directly focus on manipulating word inputs, they are limited by their means of
generating adversarial samples, lacking generalization to versatile real-world
attack. This paper studies the basic structure of transformer-based PLMs, the
self-attention (SA) mechanism. (1) We propose a powerful perturbation technique
\textit{HackAttend}, which perturbs the attention scores within the SA matrices
via meticulously crafted attention masks. We show that state-of-the-art PLMs
fall into heavy vulnerability that minor attention perturbations $(1\%)$ can
produce a very high attack success rate $(98\%)$. Our paper expands the
conventional text attack of word perturbations to more general structural
perturbations. (2) We introduce \textit{S-Attend}, a novel smoothing technique
that effectively makes SA robust via structural perturbations. We empirically
demonstrate that this simple yet effective technique achieves robust
performance on par with adversarial training when facing various text
attackers. Code is publicly available at \url{github.com/liongkj/HackAttend}.
- Abstract(参考訳): 事前学習された言語モデル(plm)は、小さな単語の変更に対して脆弱であることが示され、現実世界のシステムに大きな脅威となる。
従来の研究は単語入力を直接操作することに重点を置いていたが、それらは敵のサンプルを生成する方法によって制限されており、汎用的な現実世界攻撃への一般化が欠如している。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
1) 注意深いアテンションマスクを用いて,sa行列内のアテンションスコアを乱す強力な摂動手法である \textit{hackattend} を提案する。
我々は、最先端plmが重大な脆弱性に陥り、わずかな注意喚起値(1\%)$が非常に高い攻撃成功率$(98\%)$が得られることを示した。
本稿では,従来の単語摂動のテキスト攻撃を,より一般的な構造摂動に拡張する。
2) 構造的摂動によりSAを効果的に堅牢にする新しい平滑化技術である「textit{S-Attend}」を導入する。
我々は,この単純で効果的な手法が,種々のテキスト攻撃者に対して対人訓練と同等の堅牢な性能を実現することを実証的に実証した。
コードは \url{github.com/liongkj/HackAttend} で公開されている。
関連論文リスト
- Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models [32.23201683108716]
本稿では,攻撃に画像パッチを専ら使用し,オリジナルテキストの完全性を維持する新しい戦略を提案する。
本手法は,拡散モデルからの事前知識を活用し,摂動の真性や自然性を高める。
画像・テキスト・シナリオのホワイトボックス・セッティングで実施した総合実験により,提案手法は既存の手法を著しく上回り,100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-10-07T10:06:01Z) - CR-UTP: Certified Robustness against Universal Text Perturbations on Large Language Models [12.386141652094999]
ランダムな平滑化に基づく既存の証明されたロバスト性は、入力固有のテキスト摂動の証明にかなりの可能性を示している。
ナイーブな方法は、単にマスキング比とマスキング攻撃トークンの可能性を増大させることであるが、認証精度と認証半径の両方を著しく低下させる。
本研究では,マスキングにおいて高い認証精度を維持する優れたプロンプトを識別する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T01:02:22Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Sparse and Transferable Universal Singular Vectors Attack [5.498495800909073]
そこで本研究では, よりスムーズなホワイトボックス対逆攻撃を提案する。
我々のアプローチは、ジャコビアン行列の隠れた層の$(p,q)$-singularベクトルにスパーシティを提供するトラルキャットパワーに基づいている。
本研究は,攻撃をスパースする最先端モデルの脆弱性を実証し,堅牢な機械学習システムの開発の重要性を強調した。
論文 参考訳(メタデータ) (2024-01-25T09:21:29Z) - SemAttack: Natural Textual Attacks via Different Semantic Spaces [26.97034787803082]
本研究では,異なる意味摂動関数を構築することで,自然な逆文を生成するための効率的なフレームワークを提案する。
SemAttackは、攻撃の成功率の高い異なる言語に対して、敵対的なテキストを生成することができることを示す。
我々の生成した敵対的テキストは自然であり、人間のパフォーマンスにはほとんど影響しない。
論文 参考訳(メタデータ) (2022-05-03T03:44:03Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - MixNet for Generalized Face Presentation Attack Detection [63.35297510471997]
我々は、プレゼンテーションアタックを検出するための、TextitMixNetと呼ばれるディープラーニングベースのネットワークを提案している。
提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを利用して,各攻撃カテゴリの特徴マッピングを学習する。
論文 参考訳(メタデータ) (2020-10-25T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。