論文の概要: DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2311.08598v1
- Date: Tue, 14 Nov 2023 23:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:53:46.686793
- Title: DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Pre-trained Language Models
- Title(参考訳): DALA: 事前訓練された言語モデルに対するロラに基づく分散攻撃
- Authors: Yibo Wang, Xiangjue Dong, James Caverlee, Philip S. Yu
- Abstract要約: 敵攻撃法は、小さな摂動を伴う敵の例を生成することができる。
これらの逆の例は、トレーニングデータ分布に対する信頼性の低下と、より高い距離を示す。
そこで本研究では,DALA(Distributed-Aware LoRA-based Adversarial Attack)法を提案する。
- 参考スコア(独自算出の注目度): 64.79319733514266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained language models (PLMs) that achieve success in applications are
susceptible to adversarial attack methods that are capable of generating
adversarial examples with minor perturbations. Although recent attack methods
can achieve a relatively high attack success rate (ASR), our observation shows
that the generated adversarial examples have a different data distribution
compared with the original examples. Specifically, these adversarial examples
exhibit lower confidence levels and higher distance to the training data
distribution. As a result, they are easy to detect using very simple detection
methods, diminishing the actual effectiveness of these attack methods. To solve
this problem, we propose a Distribution-Aware LoRA-based Adversarial Attack
(DALA) method, which considers the distribution shift of adversarial examples
to improve attack effectiveness under detection methods. We further design a
new evaluation metric NASR combining ASR and detection for the attack task. We
conduct experiments on four widely-used datasets and validate the attack
effectiveness on ASR and NASR of the adversarial examples generated by DALA on
the BERT-base model and the black-box LLaMA2-7b model.
- Abstract(参考訳): アプリケーションで成功を収める事前訓練された言語モデル(plm)は、小さな摂動で敵の例を生成することができる敵の攻撃方法に影響を受けやすい。
近年の攻撃方法は比較的高い攻撃成功率 (ASR) を達成することができるが, 生成した敵のサンプルは元の例と異なるデータ分布を持つことを示す。
具体的には、これらの逆例は、トレーニングデータ分布に対する信頼性レベルと高い距離を示す。
その結果、非常に単純な検出方法により検出が容易になり、実際の攻撃方法の有効性が低下する。
そこで本研究では,対象者の分布変化を考慮した分散認識型lora-based adversarial attack (dala) 法を提案する。
さらに、ASRと攻撃タスクの検出を組み合わせた新しい評価基準NASRを設計する。
本研究では, BALA が BERT ベースモデルとブラックボックス LLaMA2-7b モデルで生成した敵例の ASR と NASR に対する攻撃効果を検証した。
関連論文リスト
- Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - Fooling SHAP with Output Shuffling Attacks [4.873272103738719]
SHAPのような説明可能なAI(XAI)メソッドは、ブラックボックスモデルにおける特徴属性の発見に役立つ。
敵攻撃は XAI メソッドの検出を覆すことができる。
我々は、データに依存しないシャッフル攻撃と呼ばれる新たな攻撃群を提案する。
論文 参考訳(メタデータ) (2024-08-12T21:57:18Z) - DTA: Distribution Transform-based Attack for Query-Limited Scenario [11.874670564015789]
敵の例を生成する際、従来のブラックボックス攻撃法は攻撃対象モデルからの十分なフィードバックに依存している。
本稿では,攻撃された動作が限られた数のクエリを実行可能であることをシミュレートするハードラベル攻撃を提案する。
提案したアイデアの有効性とDTAの最先端性を検証する実験を行った。
論文 参考訳(メタデータ) (2023-12-12T13:21:03Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Microbial Genetic Algorithm-based Black-box Attack against Interpretable
Deep Learning Systems [16.13790238416691]
ホワイトボックス環境では、解釈可能なディープラーニングシステム(IDLS)が悪意のある操作に対して脆弱であることが示されている。
本稿では,IDLSに対するクエリ効率の高いScoreベースのブラックボックス攻撃QuScoreを提案する。
論文 参考訳(メタデータ) (2023-07-13T00:08:52Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Defending against the Label-flipping Attack in Federated Learning [5.769445676575767]
フェデレーテッド・ラーニング(FL)は、参加する仲間にデザインによる自律性とプライバシを提供する。
ラベルフリッピング(LF)攻撃(英: label-flipping, LF)は、攻撃者がラベルをめくってトレーニングデータに毒を盛る攻撃である。
本稿では、まず、ピアのローカル更新からこれらの勾配を動的に抽出する新しいディフェンスを提案する。
論文 参考訳(メタデータ) (2022-07-05T12:02:54Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Mitigating the Impact of Adversarial Attacks in Very Deep Networks [10.555822166916705]
Deep Neural Network (DNN)モデルにはセキュリティに関する脆弱性がある。
データ中毒による摂動攻撃は、モデルに偽データを注入する複雑な敵対攻撃である。
そこで本研究では,攻撃に依存しない防御手法を提案する。
論文 参考訳(メタデータ) (2020-12-08T21:25:44Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。