論文の概要: DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models
- arxiv url: http://arxiv.org/abs/2311.08598v2
- Date: Sat, 17 Feb 2024 19:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:00:18.130094
- Title: DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models
- Title(参考訳): DALA: 言語モデルに対するロラに基づく分散攻撃
- Authors: Yibo Wang, Xiangjue Dong, James Caverlee, Philip S. Yu
- Abstract要約: 敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
- 参考スコア(独自算出の注目度): 64.79319733514266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models (LMs) can be manipulated by adversarial attacks, which
introduce subtle perturbations to input data. While recent attack methods can
achieve a relatively high attack success rate (ASR), we've observed that the
generated adversarial examples have a different data distribution compared with
the original examples. Specifically, these adversarial examples exhibit reduced
confidence levels and greater divergence from the training data distribution.
Consequently, they are easy to detect using straightforward detection methods,
diminishing the efficacy of such attacks. To address this issue, we propose a
Distribution-Aware LoRA-based Adversarial Attack (DALA) method. DALA considers
distribution shifts of adversarial examples to improve the attack's
effectiveness under detection methods. We further design a novel evaluation
metric, the Non-detectable Attack Success Rate (NASR), which integrates both
ASR and detectability for the attack task. We conduct experiments on four
widely used datasets to validate the attack effectiveness and transferability
of adversarial examples generated by DALA against both the white-box BERT-base
model and the black-box LLaMA2-7b model. Our codes are available at
https://anonymous.4open.science/r/DALA-A16D/.
- Abstract(参考訳): 言語モデル(LM)は、入力データに微妙な摂動をもたらす敵攻撃によって操作することができる。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができるが、生成した敵の例は元の例と異なるデータ分布を持つ。
具体的には、これらの逆の例は、トレーニングデータ分布から信頼性レベルが低下し、より多くのばらつきを示す。
したがって、簡単な検出手法で容易に検出でき、そのような攻撃の有効性を低下させる。
そこで本研究では,分散認識型lora-based adversarial attack (dala) 法を提案する。
DALAは、敵の例の分布シフトを考慮して、検出方法による攻撃の有効性を改善する。
さらに、新たな評価基準である非検出可能な攻撃成功率(NASR)を設計し、攻撃タスクに対するASRと検出性の両方を統合する。
我々は, DALA が生成した敵対的事例の攻撃効果と伝達性を評価するために, 広く使用されている4つのデータセットについて, ホワイトボックスBERTベースモデルとブラックボックス LLaMA2-7b モデルの両方に対して実験を行った。
私たちのコードはhttps://anonymous.4open.science/r/DALA-A16D/で利用可能です。
関連論文リスト
- Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - Fooling SHAP with Output Shuffling Attacks [4.873272103738719]
SHAPのような説明可能なAI(XAI)メソッドは、ブラックボックスモデルにおける特徴属性の発見に役立つ。
敵攻撃は XAI メソッドの検出を覆すことができる。
我々は、データに依存しないシャッフル攻撃と呼ばれる新たな攻撃群を提案する。
論文 参考訳(メタデータ) (2024-08-12T21:57:18Z) - DTA: Distribution Transform-based Attack for Query-Limited Scenario [11.874670564015789]
敵の例を生成する際、従来のブラックボックス攻撃法は攻撃対象モデルからの十分なフィードバックに依存している。
本稿では,攻撃された動作が限られた数のクエリを実行可能であることをシミュレートするハードラベル攻撃を提案する。
提案したアイデアの有効性とDTAの最先端性を検証する実験を行った。
論文 参考訳(メタデータ) (2023-12-12T13:21:03Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Microbial Genetic Algorithm-based Black-box Attack against Interpretable
Deep Learning Systems [16.13790238416691]
ホワイトボックス環境では、解釈可能なディープラーニングシステム(IDLS)が悪意のある操作に対して脆弱であることが示されている。
本稿では,IDLSに対するクエリ効率の高いScoreベースのブラックボックス攻撃QuScoreを提案する。
論文 参考訳(メタデータ) (2023-07-13T00:08:52Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Defending against the Label-flipping Attack in Federated Learning [5.769445676575767]
フェデレーテッド・ラーニング(FL)は、参加する仲間にデザインによる自律性とプライバシを提供する。
ラベルフリッピング(LF)攻撃(英: label-flipping, LF)は、攻撃者がラベルをめくってトレーニングデータに毒を盛る攻撃である。
本稿では、まず、ピアのローカル更新からこれらの勾配を動的に抽出する新しいディフェンスを提案する。
論文 参考訳(メタデータ) (2022-07-05T12:02:54Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Mitigating the Impact of Adversarial Attacks in Very Deep Networks [10.555822166916705]
Deep Neural Network (DNN)モデルにはセキュリティに関する脆弱性がある。
データ中毒による摂動攻撃は、モデルに偽データを注入する複雑な敵対攻撃である。
そこで本研究では,攻撃に依存しない防御手法を提案する。
論文 参考訳(メタデータ) (2020-12-08T21:25:44Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。