Fugu-MT 論文翻訳(概要): Unveiling Vulnerability of Self-Attention

論文の概要: Unveiling Vulnerability of Self-Attention

arxiv url: http://arxiv.org/abs/2402.16470v1
Date: Mon, 26 Feb 2024 10:31:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 13:43:20.587042
Title: Unveiling Vulnerability of Self-Attention
Title（参考訳）: 自己注意の脆弱性の解消
Authors: Khai Jiet Liong, Hongqiu Wu, Hai Zhao
Abstract要約: 事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
参考スコア（独自算出の注目度）: 61.85150061213987
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models (PLMs) are shown to be vulnerable to minor word changes, which poses a big threat to real-world systems. While previous studies directly focus on manipulating word inputs, they are limited by their means of generating adversarial samples, lacking generalization to versatile real-world attack. This paper studies the basic structure of transformer-based PLMs, the self-attention (SA) mechanism. (1) We propose a powerful perturbation technique \textit{HackAttend}, which perturbs the attention scores within the SA matrices via meticulously crafted attention masks. We show that state-of-the-art PLMs fall into heavy vulnerability that minor attention perturbations $(1\%)$ can produce a very high attack success rate $(98\%)$. Our paper expands the conventional text attack of word perturbations to more general structural perturbations. (2) We introduce \textit{S-Attend}, a novel smoothing technique that effectively makes SA robust via structural perturbations. We empirically demonstrate that this simple yet effective technique achieves robust performance on par with adversarial training when facing various text attackers. Code is publicly available at \url{github.com/liongkj/HackAttend}.
Abstract（参考訳）: 事前学習された言語モデル(plm)は、小さな単語の変更に対して脆弱であることが示され、現実世界のシステムに大きな脅威となる。従来の研究は単語入力を直接操作することに重点を置いていたが、それらは敵のサンプルを生成する方法によって制限されており、汎用的な現実世界攻撃への一般化が欠如している。本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。 1) 注意深いアテンションマスクを用いて,sa行列内のアテンションスコアを乱す強力な摂動手法である \textit{hackattend} を提案する。我々は、最先端plmが重大な脆弱性に陥り、わずかな注意喚起値(1\%)$が非常に高い攻撃成功率$(98\%)$が得られることを示した。本稿では,従来の単語摂動のテキスト攻撃を,より一般的な構造摂動に拡張する。 2) 構造的摂動によりSAを効果的に堅牢にする新しい平滑化技術である「textit{S-Attend}」を導入する。我々は,この単純で効果的な手法が,種々のテキスト攻撃者に対して対人訓練と同等の堅牢な性能を実現することを実証的に実証した。コードは \url{github.com/liongkj/HackAttend} で公開されている。

関連論文リスト

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。提案手法では,有害な指示を視覚ガジェットの系列に分解する。以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文参考訳（メタデータ） (2025-07-29T07:13:56Z)
Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。 Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文参考訳（メタデータ） (2025-06-04T01:23:35Z)
AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文参考訳（メタデータ） (2025-04-18T08:38:56Z)
ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。 $textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。 $textitELBA-Bench$は1300以上の実験を提供する。
論文参考訳（メタデータ） (2025-02-22T12:55:28Z)
StructTransform: A Scalable Attack Surface for Safety-Aligned Large Language Models [3.0308780927465135]
我々はLLMアライメントに対する一連の構造変換攻撃を行い、多様な構文空間を用いて自然言語の意図を符号化する。我々の最も単純な攻撃は、厳格なLSMでも90%近い成功率を達成することができる。ベンチマークを作成し、既存の安全アライメント対策の評価を行い、そのほとんどは100%のASRで失敗していることを示す。
論文参考訳（メタデータ） (2025-02-17T14:46:38Z)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文参考訳（メタデータ） (2024-12-20T21:43:52Z)
Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models [32.23201683108716]
本稿では,攻撃に画像パッチを専ら使用し,オリジナルテキストの完全性を維持する新しい戦略を提案する。本手法は,拡散モデルからの事前知識を活用し,摂動の真性や自然性を高める。画像・テキスト・シナリオのホワイトボックス・セッティングで実施した総合実験により,提案手法は既存の手法を著しく上回り,100%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2024-10-07T10:06:01Z)
CR-UTP: Certified Robustness against Universal Text Perturbations on Large Language Models [12.386141652094999]
ランダムな平滑化に基づく既存の証明されたロバスト性は、入力固有のテキスト摂動の証明にかなりの可能性を示している。ナイーブな方法は、単にマスキング比とマスキング攻撃トークンの可能性を増大させることであるが、認証精度と認証半径の両方を著しく低下させる。本研究では,マスキングにおいて高い認証精度を維持する優れたプロンプトを識別する新しい手法を提案する。
論文参考訳（メタデータ） (2024-06-04T01:02:22Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-21T18:28:43Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Sparse and Transferable Universal Singular Vectors Attack [5.498495800909073]
そこで本研究では, よりスムーズなホワイトボックス対逆攻撃を提案する。我々のアプローチは、ジャコビアン行列の隠れた層の$(p,q)$-singularベクトルにスパーシティを提供するトラルキャットパワーに基づいている。本研究は,攻撃をスパースする最先端モデルの脆弱性を実証し,堅牢な機械学習システムの開発の重要性を強調した。
論文参考訳（メタデータ） (2024-01-25T09:21:29Z)
SemAttack: Natural Textual Attacks via Different Semantic Spaces [26.97034787803082]
本研究では,異なる意味摂動関数を構築することで,自然な逆文を生成するための効率的なフレームワークを提案する。 SemAttackは、攻撃の成功率の高い異なる言語に対して、敵対的なテキストを生成することができることを示す。我々の生成した敵対的テキストは自然であり、人間のパフォーマンスにはほとんど影響しない。
論文参考訳（メタデータ） (2022-05-03T03:44:03Z)
Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文参考訳（メタデータ） (2021-04-16T14:37:27Z)
MixNet for Generalized Face Presentation Attack Detection [63.35297510471997]
我々は、プレゼンテーションアタックを検出するための、TextitMixNetと呼ばれるディープラーニングベースのネットワークを提案している。提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを利用して,各攻撃カテゴリの特徴マッピングを学習する。
論文参考訳（メタデータ） (2020-10-25T23:01:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。