論文の概要: Modeling Adversarial Attack on Pre-trained Language Models as Sequential
Decision Making
- arxiv url: http://arxiv.org/abs/2305.17440v1
- Date: Sat, 27 May 2023 10:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 19:15:46.145434
- Title: Modeling Adversarial Attack on Pre-trained Language Models as Sequential
Decision Making
- Title(参考訳): 逐次決定法としての事前学習言語モデルの逆攻撃のモデル化
- Authors: Xuanjie Fang, Sijie Cheng, Yang Liu, Wei Wang
- Abstract要約: 敵攻撃タスクは、事前訓練された言語モデル(PLM)が小さな摂動に弱いことを発見した。
本稿では, PLM に対する逆攻撃タスクを逐次決定問題としてモデル化する。
そこで本稿では,SDM-Attack と呼ばれる敵を発生させる適切な逐次攻撃経路を見つけるための強化学習を提案する。
- 参考スコア(独自算出の注目度): 10.425483543802846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have been widely used to underpin various
downstream tasks. However, the adversarial attack task has found that PLMs are
vulnerable to small perturbations. Mainstream methods adopt a detached
two-stage framework to attack without considering the subsequent influence of
substitution at each step. In this paper, we formally model the adversarial
attack task on PLMs as a sequential decision-making problem, where the whole
attack process is sequential with two decision-making problems, i.e., word
finder and word substitution. Considering the attack process can only receive
the final state without any direct intermediate signals, we propose to use
reinforcement learning to find an appropriate sequential attack path to
generate adversaries, named SDM-Attack. Extensive experimental results show
that SDM-Attack achieves the highest attack success rate with a comparable
modification rate and semantic similarity to attack fine-tuned BERT.
Furthermore, our analyses demonstrate the generalization and transferability of
SDM-Attack. The code is available at https://github.com/fduxuan/SDM-Attack.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、様々な下流タスクの基盤となるために広く使われている。
しかし, PLMは小さな摂動に対して脆弱であることがわかった。
メインストリームメソッドは、各ステップにおける置換の影響を考慮せずに攻撃するために分離された2段階のフレームワークを採用する。
本稿では, PLM における対角攻撃タスクを, 単語ファインダと単語置換という2つの意思決定問題と連続した順序決定問題として, 形式的にモデル化する。
攻撃プロセスは直接的中間信号がなければ最終状態しか受信できないので,SDM-Attack と呼ばれる敵を生成するための適切な逐次攻撃経路を見つけるために強化学習を用いることを提案する。
実験結果から, SDM-Attack が最も高い攻撃成功率を達成し, 修正率とセマンティックな類似性が得られた。
さらに,本研究ではsdm攻撃の一般化と伝達性を示す。
コードはhttps://github.com/fduxuan/SDM-Attack.comで入手できる。
関連論文リスト
- Learning to Learn Transferable Generative Attack for Person Re-Identification [17.26567195924685]
既存の攻撃は、異なるドメインでトレーニングされたモデルを摂動するクロステスト能力を無視して、クロスデータセットとクロスモデル転送可能性のみを考慮する。
実世界のre-idモデルのロバスト性を調べるために,MTGA法を提案する。
我々のMTGAは平均mAP低下率でSOTA法を21.5%、平均11.3%で上回っている。
論文 参考訳(メタデータ) (2024-09-06T11:57:17Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - DTA: Distribution Transform-based Attack for Query-Limited Scenario [11.874670564015789]
敵の例を生成する際、従来のブラックボックス攻撃法は攻撃対象モデルからの十分なフィードバックに依存している。
本稿では,攻撃された動作が限られた数のクエリを実行可能であることをシミュレートするハードラベル攻撃を提案する。
提案したアイデアの有効性とDTAの最先端性を検証する実験を行った。
論文 参考訳(メタデータ) (2023-12-12T13:21:03Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Transferable Attack for Semantic Segmentation [59.17710830038692]
敵が攻撃し、ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗するのを観察します。
本研究では, セマンティックセグメンテーションのためのアンサンブルアタックを提案する。
論文 参考訳(メタデータ) (2023-07-31T11:05:55Z) - UOR: Universal Backdoor Attacks on Pre-trained Language Models [9.968755838867178]
既存のトレーニング済み言語モデル(PLM)に対するバックドア攻撃のほとんどは、未ターゲットでタスク固有のものである。
まず, PLMに対するより脅迫的なバックドア攻撃が満足すべき要件をまとめた上で, UORと呼ばれる新たなバックドア攻撃手法を提案する。
具体的には,各種PLMに対するトリガのより均一で普遍的な出力表現を自動的に学習できる有毒な教師付きコントラスト学習を定義する。
論文 参考訳(メタデータ) (2023-05-16T16:11:48Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。