論文の概要: Defending Large Language Models Against Jailbreaking Attacks Through
Goal Prioritization
- arxiv url: http://arxiv.org/abs/2311.09096v1
- Date: Wed, 15 Nov 2023 16:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:04:17.837062
- Title: Defending Large Language Models Against Jailbreaking Attacks Through
Goal Prioritization
- Title(参考訳): ゴール優先化による大規模言語モデルの脱獄攻撃対策
- Authors: Zhexin Zhang, Junxiao Yang, Pei Ke, Minlie Huang
- Abstract要約: 大きな言語モデル(LLM)はその能力の進歩を続けているが、この進歩にはさまざまな安全性リスクが伴っている。
我々は、ジェイルブレイクの成功に寄与する重要な要因を指摘している。
ジェイルブレーキング攻撃に対する対策として,トレーニング段階と推論段階の両方でゴール優先順位付けを統合することを提案する。
- 参考スコア(独自算出の注目度): 74.9438024948104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) continue to advance in their capabilities, yet
this progress is accompanied by a growing array of safety risks. While
significant attention has been dedicated to exploiting weaknesses in LLMs
through jailbreaking attacks, there remains a paucity of exploration into
defending against these attacks. We point out a pivotal factor contributing to
the success of jailbreaks: the inherent conflict between the goals of being
helpful and ensuring safety. To counter jailbreaking attacks, we propose to
integrate goal prioritization at both training and inference stages.
Implementing goal prioritization during inference substantially diminishes the
Attack Success Rate (ASR) of jailbreaking attacks, reducing it from 66.4% to
2.0% for ChatGPT and from 68.2% to 19.4% for Vicuna-33B, without compromising
general performance. Furthermore, integrating the concept of goal
prioritization into the training phase reduces the ASR from 71.0% to 6.6% for
LLama2-13B. Remarkably, even in scenarios where no jailbreaking samples are
included during training, our approach slashes the ASR by half, decreasing it
from 71.0% to 34.0%. Additionally, our findings reveal that while stronger LLMs
face greater safety risks, they also possess a greater capacity to be steered
towards defending against such attacks. We hope our work could contribute to
the comprehension of jailbreaking attacks and defenses, and shed light on the
relationship between LLMs' capability and safety. Our code will be available at
\url{https://github.com/thu-coai/JailbreakDefense_GoalPriority}.
- Abstract(参考訳): 大きな言語モデル(LLM)はその能力の進歩を続けているが、この進歩にはさまざまな安全性リスクが伴っている。
脱獄攻撃によってLLMの弱点を悪用することには大きな注意が払われているが、これらの攻撃から守るための調査はいまだに行われている。
我々は、ジェイルブレイクの成功に寄与する重要な要因を指摘している。
ジェイルブレーキング攻撃に対する対策として,トレーニング段階と推論段階の両方でゴール優先順位付けを統合することを提案する。
推論中のゴール優先化を実装することで、ジェイルブレイク攻撃のアタック成功率(ASR)が大幅に低下し、ChatGPTでは66.4%から2.0%に、Vicuna-33Bでは68.2%から19.4%に低下する。
さらに、目標優先順位付けの概念をトレーニングフェーズに統合することで、LLama2-13BのASRを71.0%から6.6%に削減できる。
注目すべきは、トレーニング中にジェイルブレイクサンプルを含まないシナリオでも、我々のアプローチはASRを半分に減らし、それを71.0%から34.0%に減らします。
さらに,より強固なllmはより安全性の高いリスクに直面しているが,そのような攻撃に対して防御する能力も高いことが判明した。
われわれの努力が、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てることを願っている。
私たちのコードは \url{https://github.com/thu-coai/JailbreakDefense_GoalPriority} で利用可能になります。
関連論文リスト
- Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Fast Adversarial Attacks on Language Models In One GPU Minute [49.615024989416355]
我々は、言語モデル(LM)のための高速ビームサーチに基づく敵攻撃(BEAST)の新たなクラスを導入する。
BEASTは解釈可能なパラメータを使用し、攻撃者は攻撃速度、成功率、敵のプロンプトの可読性の間でバランスをとることができる。
我々の勾配のない標的攻撃は、1分以内に高い攻撃成功率のLMをジェイルブレイクできる。
論文 参考訳(メタデータ) (2024-02-23T19:12:53Z) - Defending Jailbreak Prompts via In-Context Adversarial Game [34.83853184278604]
In-Context Adversarial Game(ICAG)を導入し、細調整を必要とせずにジェイルブレイクを防御する。
静的データセットに依存する従来の方法とは異なり、ICAGは防御エージェントと攻撃エージェントの両方を強化するために反復的なプロセスを採用している。
ICAGにより保護されたLSMがジェイルブレイクの成功率を大幅に低下させるICAGの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-20T17:04:06Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Robust Prompt Optimization for Defending Language Models Against
Jailbreaking Attacks [19.364674417165908]
本稿では,脱獄攻撃から言語モデルを守るための最初の敵対的目標を提案する。
厳密なプロンプト最適化(RPO)アルゴリズムは、無害な出力を強制するために勾配ベースのトークン最適化を使用する。
RPOは良性使用に小さな影響を与え、適応攻撃で成功し、ブラックボックスモデルに移行することができる。
論文 参考訳(メタデータ) (2024-01-30T18:56:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。