論文の概要: Evaluating and Safeguarding the Adversarial Robustness of Retrieval-Based In-Context Learning
- arxiv url: http://arxiv.org/abs/2405.15984v4
- Date: Tue, 08 Oct 2024 18:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 11:49:20.558590
- Title: Evaluating and Safeguarding the Adversarial Robustness of Retrieval-Based In-Context Learning
- Title(参考訳): 検索型インテクスト学習における逆ロバスト性の評価と保護
- Authors: Simon Yu, Jie He, Pasquale Minervini, Jeff Z. Pan,
- Abstract要約: In-Context Learning (ICL) は、プロンプトでデモをエンコードするために使用される選択、順序、動詞に敏感である。
Retrieval-Augmented ICLメソッドは、レトリバーを活用して、意味論的に関連する例を例示として抽出することで、この問題に対処しようとする。
本研究は, 検索強化モデルにより, 検体攻撃に対する堅牢性が向上することを明らかにする。
そこで本研究では,攻撃したサンプルを用いてサンプルプールを充実させる,効果的な訓練自由対人防御手法であるDARDを導入する。
- 参考スコア(独自算出の注目度): 21.018893978967053
- License:
- Abstract: With the emergence of large language models, such as LLaMA and OpenAI GPT-3, In-Context Learning (ICL) gained significant attention due to its effectiveness and efficiency. However, ICL is very sensitive to the choice, order, and verbaliser used to encode the demonstrations in the prompt. Retrieval-Augmented ICL methods try to address this problem by leveraging retrievers to extract semantically related examples as demonstrations. While this approach yields more accurate results, its robustness against various types of adversarial attacks, including perturbations on test samples, demonstrations, and retrieved data, remains under-explored. Our study reveals that retrieval-augmented models can enhance robustness against test sample attacks, outperforming vanilla ICL with a 4.87% reduction in Attack Success Rate (ASR); however, they exhibit overconfidence in the demonstrations, leading to a 2% increase in ASR for demonstration attacks. Adversarial training can help improve the robustness of ICL methods to adversarial attacks; however, such a training scheme can be too costly in the context of LLMs. As an alternative, we introduce an effective training-free adversarial defence method, DARD, which enriches the example pool with those attacked samples. We show that DARD yields improvements in performance and robustness, achieving a 15% reduction in ASR over the baselines. Code and data are released to encourage further research: https://github.com/simonucl/adv-retreival-icl
- Abstract(参考訳): LLaMAやOpenAI GPT-3といった大規模言語モデルの出現に伴い、ICL(In-Context Learning)はその有効性と効率性から大きな注目を集めた。
しかし、ICLはプロンプトのデモをエンコードするために使われる選択、順序、動詞に非常に敏感である。
Retrieval-Augmented ICLメソッドは、レトリバーを活用して、意味論的に関連する例を例示として抽出することで、この問題に対処しようとする。
このアプローチはより正確な結果をもたらすが、テストサンプルの摂動、デモ、検索されたデータなど、様々な種類の敵攻撃に対する堅牢性は未調査のままである。
本研究は,バニラICLが4.87%のアタック成功率(ASR)を低下させることで,検索強化モデルがテストサンプル攻撃に対する堅牢性を向上することを明らかにする。
敵の訓練は、敵の攻撃に対するICL法の堅牢性を改善するのに役立つが、そのような訓練スキームはLLMの文脈ではコストがかかりすぎる。
代替として、攻撃されたサンプルをサンプルプールに濃縮する効果的な訓練自由敵防衛手法であるDARDを導入する。
DARDは性能とロバスト性を向上し,ベースラインよりもASRの15%削減を実現している。
コードとデータは、さらなる研究を促進するためにリリースされている。
関連論文リスト
- Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-30T08:41:39Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Adversarial Demonstration Attacks on Large Language Models [43.15298174675082]
本稿では,テキスト内学習(ICL)のセキュリティ問題について,敵対的観点から検討する。
本稿では,入力を変更せずに実演のみを操作することを目的とした,advICLという新しい攻撃手法を提案する。
その結果,実演数が増えるにつれて,文脈内学習の堅牢性が低下することが示唆された。
論文 参考訳(メタデータ) (2023-05-24T09:40:56Z) - Enhancing Accuracy and Robustness through Adversarial Training in Class
Incremental Continual Learning [0.34265828682659694]
ディープラーニングモデルに対する敵対的攻撃は致命的なセキュリティ問題である。
CICLは敵攻撃に対する防御法としてよく知られている。
本稿では,経験リプレイを用いた手法に適用可能な外部支援訓練(EAT)を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:37:18Z) - Effective Targeted Attacks for Adversarial Self-Supervised Learning [58.14233572578723]
ラベル情報を持たないモデルにおいて堅牢性を達成する手段として、教師なしの敵訓練(AT)が強調されている。
本稿では,敵のSSLフレームワークを効果的に生成するために,敵の攻撃を標的とした新たな正のマイニングを提案する。
提案手法は,非コントラスト型SSLフレームワークに適用した場合のロバストネスの大幅な向上と,コントラスト型SSLフレームワークによるロバストネスの向上を示す。
論文 参考訳(メタデータ) (2022-10-19T11:43:39Z) - Understanding and Achieving Efficient Robustness with Adversarial
Contrastive Learning [34.97017489872795]
Adversarial Supervised Contrastive Learning (ASCL)アプローチは、堅牢な精度の観点から最先端の防御を2.6%$上回る。
提案された選択戦略を持つASCLは、選択戦略なしでASCLと比較してわずか4,2.8%のプラスと6.3%のマイナスでさらに1.4%$改善を得ることができます。
論文 参考訳(メタデータ) (2021-01-25T11:57:52Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。