論文の概要: "Short-length" Adversarial Training Helps LLMs Defend "Long-length" Jailbreak Attacks: Theoretical and Empirical Evidence
- arxiv url: http://arxiv.org/abs/2502.04204v1
- Date: Thu, 06 Feb 2025 16:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:20.359741
- Title: "Short-length" Adversarial Training Helps LLMs Defend "Long-length" Jailbreak Attacks: Theoretical and Empirical Evidence
- Title(参考訳): 短長の対人訓練は、LLMが「長短のジェイルブレイク攻撃」を防衛するのを手助けする:理論的および実証的証拠
- Authors: Shaopeng Fu, Liang Ding, Di Wang,
- Abstract要約: 本論では, 対人的ジェイルブレイク攻撃に着目し, 対人的ジェイルブレイク攻撃に対して, 対人的ジェイルブレイク攻撃を$Theta(M)$で防御するには, 対人的ジェイルブレイク攻撃を$Theta(sqrtM)$で防御するには, 対人的ジェイルブレイク攻撃を$Theta(M)$で防御するには十分であることを示す。
- 参考スコア(独自算出の注目度): 16.473252240207977
- License:
- Abstract: Jailbreak attacks against large language models (LLMs) aim to induce harmful behaviors in LLMs through carefully crafted adversarial prompts. To mitigate attacks, one way is to perform adversarial training (AT)-based alignment, i.e., training LLMs on some of the most adversarial prompts to help them learn how to behave safely under attacks. During AT, the length of adversarial prompts plays a critical role in the robustness of aligned LLMs. This paper focuses on adversarial suffix jailbreak attacks and unveils that to defend against a jailbreak attack with an adversarial suffix of length $\Theta(M)$, it is enough to align LLMs on prompts with adversarial suffixes of length $\Theta(\sqrt{M})$. Theoretically, we analyze the adversarial in-context learning of linear transformers on linear regression tasks and prove a robust generalization bound for trained transformers. The bound depends on the term $\Theta(\sqrt{M_{\text{test}}}/M_{\text{train}})$, where $M_{\text{train}}$ and $M_{\text{test}}$ are the number of adversarially perturbed in-context samples during training and testing. Empirically, we conduct AT on popular open-source LLMs and evaluate their robustness against jailbreak attacks of different adversarial suffix lengths. Results confirm a positive correlation between the attack success rate and the ratio of the square root of the adversarial suffix during jailbreaking to the length during AT. Our findings show that it is practical to defend "long-length" jailbreak attacks via efficient "short-length" AT. The code is available at https://github.com/fshp971/adv-icl.
- Abstract(参考訳): 大規模言語モデル(LLM)に対するジェイルブレイク攻撃は、慎重に構築された敵のプロンプトを通じてLLMの有害な振る舞いを誘発することを目的としている。
攻撃を緩和するためには、敵の訓練(AT)ベースのアライメント、すなわち最も敵対的なプロンプトのいくつかでLSMを訓練し、攻撃下で安全に行動する方法を学ぶのを助ける方法がある。
ATの間、敵のプロンプトの長さは、アライメントLDMのロバスト性において重要な役割を果たす。
本論では, 対外ジェイルブレイク攻撃に着目し, 対外ジェイルブレイク攻撃に対して, 対外ジェイルブレイク攻撃を$\Theta(M)$で防御するには, 対外ジェイルブレイク攻撃を$\Theta(\sqrt{M})$で防御するには, 対外ジェイルブレイク攻撃を$\Theta(M)$で防御するには十分であることを示す。
理論的には、線形回帰タスクにおける線形変圧器の逆文脈学習を解析し、訓練された変圧器に対して頑健な一般化を証明している。
境界は$\Theta(\sqrt{M_{\text{test}}}/M_{\text{train}})$, where $M_{\text{train}}$と$M_{\text{test}}$は、トレーニングとテスト中に逆向きに乱されるコンテキスト内のサンプルの数である。
実験的に、我々は人気のあるオープンソースLLM上でATを行い、異なる逆接接尾辞の長さのジェイルブレイク攻撃に対する頑健さを評価した。
その結果, 攻撃成功率と, ジェイルブレイク時の正方根の比率とAT中の長さとの正の相関が認められた。
以上の結果から,効率的な短距離ATによる「長期」ジェイルブレイク攻撃を効果的に防御できることが示唆された。
コードはhttps://github.com/fshp971/adv-icl.comで公開されている。
関連論文リスト
- HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。