論文の概要: Efficient Adversarial Training in LLMs with Continuous Attacks
- arxiv url: http://arxiv.org/abs/2405.15589v1
- Date: Fri, 24 May 2024 14:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:50:09.468002
- Title: Efficient Adversarial Training in LLMs with Continuous Attacks
- Title(参考訳): 連続的攻撃を伴うLDMの効率よい対人訓練
- Authors: Sophie Xhonneux, Alessandro Sordoni, Stephan Günnemann, Gauthier Gidel, Leo Schwinn,
- Abstract要約: 大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
- 参考スコア(独自算出の注目度): 99.5882845458567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are vulnerable to adversarial attacks that can bypass their safety guardrails. In many domains, adversarial training has proven to be one of the most promising methods to reliably improve robustness against such attacks. Yet, in the context of LLMs, current methods for adversarial training are hindered by the high computational costs required to perform discrete adversarial attacks at each training iteration. We address this problem by instead calculating adversarial attacks in the continuous embedding space of the LLM, which is orders of magnitudes more efficient. We propose a fast adversarial training algorithm (C-AdvUL) composed of two losses: the first makes the model robust on continuous embedding attacks computed on an adversarial behaviour dataset; the second ensures the usefulness of the final model by fine-tuning on utility data. Moreover, we introduce C-AdvIPO, an adversarial variant of IPO that does not require utility data for adversarially robust alignment. Our empirical evaluation on four models from different families (Gemma, Phi3, Mistral, Zephyr) and at different scales (2B, 3.8B, 7B) shows that both algorithms substantially enhance LLM robustness against discrete attacks (GCG, AutoDAN, PAIR), while maintaining utility. Our results demonstrate that robustness to continuous perturbations can extrapolate to discrete threat models. Thereby, we present a path toward scalable adversarial training algorithms for robustly aligning LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
多くのドメインにおいて、このような攻撃に対する堅牢性を確実に改善する最も有望な方法の1つとして、敵の訓練が証明されている。
しかし、LLMの文脈では、各訓練イテレーションで個別の対向攻撃を行うのに必要な計算コストが高いため、現在の対向訓練方法が妨げられている。
本研究では, LLM の連続埋め込み空間における敵攻撃を計算してこの問題に対処する。
本稿では,2つの損失から成る高速対人訓練アルゴリズム(C-AdvUL)を提案する。第1に,対人行動データセット上で計算された連続的な埋め込み攻撃に対してモデルを頑健にし,第2に,実用データによる微調整による最終モデルの有用性を保証する。
C-AdvIPO(C-AdvIPO)は、対向的ロバストなアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
我々は,異なる家族(Gemma,Phi3,Mistral,Zephyr)と異なるスケール(2B,3.8B,7B)の4つのモデルに対する実験的な評価を行い,両アルゴリズムが実用性を維持しつつ,離散攻撃(GCG,AutoDAN,PAIR)に対してLLMロバスト性を大幅に向上させることを示した。
この結果から, 連続摂動に対する頑健性は, 離散的な脅威モデルに当てはまることを示した。
そこで我々は,LLMを堅牢に整列させるスケーラブルな対角訓練アルゴリズムを提案する。
関連論文リスト
- Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-30T08:41:39Z) - Discriminative Adversarial Unlearning [40.30974185546541]
我々は、min-max最適化パラダイムの確立した原則に基づいて、新しい機械学習フレームワークを導入する。
我々は、訓練されたモデルから特定のサンプルの学習を容易にするために、強力なメンバーシップ推論攻撃(MIA)の能力を利用する。
提案アルゴリズムは,スクラッチから再学習する理想的なベンチマークを,ランダムサンプルの忘れ方とクラスワイドの忘れ方の両方に近似する。
論文 参考訳(メタデータ) (2024-02-10T03:04:57Z) - Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization [15.11457665677937]
既存の堅牢なMARL手法は、最悪の敵に対する全ての脅威シナリオを近似または列挙する。
我々は、全ての脅威シナリオにおいて、最悪の場合のロバストネスを暗黙的に最適化した、ロバストなMARLを推論問題とする。
このフレームワーク内では、ルーチントレーニング中のロバスト正規化(MIR3)としての相互情報正規化が、ロバスト性の低い境界を最大化することを保証している。
論文 参考訳(メタデータ) (2023-10-15T13:35:51Z) - Outlier Robust Adversarial Training [57.06824365801612]
本研究では,アウトリー・ロバスト・アドバイザリアル・トレーニング(ORAT)を紹介する。
ORATは、強靭なランクに基づく損失関数を持つ対向訓練の2レベル最適化の定式化に基づいている。
ORATの学習目的はバイナリ分類における$mathcalH$-consistencyを満たすことが示され、これは敵の0/1損失に対する適切なサロゲートとして確立されている。
論文 参考訳(メタデータ) (2023-09-10T21:36:38Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Adversarial Training Should Be Cast as a Non-Zero-Sum Game [121.95628660889628]
対人訓練の2つのプレイヤーゼロサムパラダイムは、十分な強靭性を発揮できていない。
敵のトレーニングアルゴリズムでよく使われるサロゲートベースの緩和は、ロバスト性に関するすべての保証を無効にすることを示す。
対人訓練の新たな非ゼロサム二段階の定式化は、一致し、場合によっては最先端の攻撃よりも優れたフレームワークをもたらす。
論文 参考訳(メタデータ) (2023-06-19T16:00:48Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。