論文の概要: Adversarial Attacks on Large Language Models Using Regularized Relaxation
- arxiv url: http://arxiv.org/abs/2410.19160v1
- Date: Thu, 24 Oct 2024 21:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:21.979034
- Title: Adversarial Attacks on Large Language Models Using Regularized Relaxation
- Title(参考訳): 正規化緩和を用いた大規模言語モデルの逆攻撃
- Authors: Samuel Jacob Chacko, Sajib Biswas, Chashi Mahiul Islam, Fatema Tabassum Liza, Xiuwen Liu,
- Abstract要約: 大規模言語モデル(LLM)は、多くの実用的な用途に使われている。
敵攻撃法は、これらの脆弱性を研究し、理解するために広く使われている。
本稿では,正規化勾配を連続最適化法で活用することにより,これらの制限を克服する新たな攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 1.042748558542389
- License:
- Abstract: As powerful Large Language Models (LLMs) are now widely used for numerous practical applications, their safety is of critical importance. While alignment techniques have significantly improved overall safety, LLMs remain vulnerable to carefully crafted adversarial inputs. Consequently, adversarial attack methods are extensively used to study and understand these vulnerabilities. However, current attack methods face significant limitations. Those relying on optimizing discrete tokens suffer from limited efficiency, while continuous optimization techniques fail to generate valid tokens from the model's vocabulary, rendering them impractical for real-world applications. In this paper, we propose a novel technique for adversarial attacks that overcomes these limitations by leveraging regularized gradients with continuous optimization methods. Our approach is two orders of magnitude faster than the state-of-the-art greedy coordinate gradient-based method, significantly improving the attack success rate on aligned language models. Moreover, it generates valid tokens, addressing a fundamental limitation of existing continuous optimization methods. We demonstrate the effectiveness of our attack on five state-of-the-art LLMs using four datasets.
- Abstract(参考訳): 強力な大規模言語モデル(LLM)が多くの実用アプリケーションに広く使われているため、その安全性は極めて重要である。
アライメント技術は全体的な安全性を大幅に向上させたが、LSMは慎重に構築された敵の入力に弱いままである。
その結果、敵攻撃法はこれらの脆弱性を研究・理解するために広く用いられている。
しかし、現在の攻撃方法は重大な制限に直面している。
離散トークンの最適化に依存するものは、限られた効率に悩まされる一方、継続的な最適化手法はモデルの語彙から有効なトークンを生成することができず、現実のアプリケーションでは実用的ではない。
本稿では,正規化勾配を連続最適化法で利用することにより,これらの制限を克服する新たな敵攻撃手法を提案する。
我々の手法は、最先端のグリーディ座標勾配法よりも2桁高速であり、整列言語モデルの攻撃成功率を大幅に向上させる。
さらに、有効なトークンを生成し、既存の連続最適化手法の基本的な制限に対処する。
4つのデータセットを用いた5つの最先端LCMに対する攻撃の有効性を示す。
関連論文リスト
- Efficient and Effective Universal Adversarial Attack against Vision-Language Pre-training Models [14.828324088905772]
非普遍的敵攻撃は、多くの場合、データインスタンス当たりの計算要求が高いため、リアルタイムオンラインアプリケーションでは実用的ではない。
DO-UAPと呼ばれる直接最適化に基づくUAPアプローチを提案し、高い攻撃性能を維持しながら資源消費を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-15T14:29:47Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Attacking Large Language Models with Projected Gradient Descent [12.130638442765857]
逆数プロンプトの射影勾配 Descent (PGD) は、最先端の離散最適化よりも最大1桁高速である。
我々のLPM用PGDは、同じ破壊的な攻撃結果を達成するために、最先端の離散最適化よりも最大1桁高速である。
論文 参考訳(メタデータ) (2024-02-14T13:13:26Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。