論文の概要: Intention Analysis Makes LLMs A Good Jailbreak Defender
- arxiv url: http://arxiv.org/abs/2401.06561v2
- Date: Wed, 21 Feb 2024 08:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:12:57.653406
- Title: Intention Analysis Makes LLMs A Good Jailbreak Defender
- Title(参考訳): 意図分析がllmsを脱獄防止に役立てる
- Authors: Yuqi Zhang and Liang Ding and Lefei Zhang and Dacheng Tao
- Abstract要約: 本研究では,シンプルかつ高効率な防衛戦略,すなわち意図分析(mathbbIA$)を提案する。
この背景にある原則は、LSM固有の自己修正をトリガーし、2段階のプロセスを通じて能力を改善することである。
$mathbbIA$は推論のみのメソッドであり、その有用性を損なうことなくLLMの安全性を高めることができる。
- 参考スコア(独自算出の注目度): 86.74040391751399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with human values, particularly in the
face of stealthy and complex jailbreak attacks, presents a formidable
challenge. In this study, we present a simple yet highly effective defense
strategy, i.e., Intention Analysis ($\mathbb{IA}$). The principle behind this
is to trigger LLMs' inherent self-correct and improve ability through a
two-stage process: 1) essential intention analysis, and 2) policy-aligned
response. Notably, $\mathbb{IA}$ is an inference-only method, thus could
enhance the safety of LLMs without compromising their helpfulness. Extensive
experiments on SAP200 and DAN benchmarks across Vicuna, ChatGLM, MPT, DeepSeek,
and GPT-3.5 show that $\mathbb{IA}$ could consistently and significantly reduce
the harmfulness in responses (averagely -46.5\% attack success rate) and
maintain the general helpfulness. Encouragingly, with the help of our
$\mathbb{IA}$, Vicuna-7b even outperforms GPT-3.5 in terms of attack success
rate. Further analyses present some insights into how our method works. To
facilitate reproducibility, we release our code and scripts at:
https://github.com/alphadl/SafeLLM_with_IntentionAnalysis.
- Abstract(参考訳): 大規模な言語モデル(LLM)と人間の価値、特にステルス性や複雑なジェイルブレイク攻撃に直面して調整することは、恐ろしい挑戦だ。
本研究では,意図分析(\mathbb{IA}$)という,シンプルで効果的な防衛戦略を提案する。
この背景にある原則は、LSM固有の自己修正をトリガーし、2段階のプロセスを通じて能力を改善することである。
1)本質的意図分析、及び
2)政策対応対応。
特に$\mathbb{IA}$は推論のみの手法であり、その有用性を損なうことなくLLMの安全性を高めることができる。
Vicuna、ChatGLM、MPT、DeepSeek、およびGPT-3.5にわたるSAP200およびDANベンチマークの広範な実験により、$\mathbb{IA}$は、応答の有害性(平均-46.5 %の攻撃成功率)を一貫して大幅に低減し、一般的な有用性を維持することができた。
Vicuna-7bは、われわれの$\mathbb{IA}$の助けを借りて、GPT-3.5の攻撃成功率よりも優れています。
さらなる分析は、我々の方法がどのように機能するかについての洞察を与える。
再現性を促進するため、コードとスクリプトをhttps://github.com/alphadl/SafeLLM_with_IntentionAnalysis.comでリリースします。
関連論文リスト
- Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation [39.829517061574364]
さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。
本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。
本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
論文 参考訳(メタデータ) (2023-10-10T20:15:54Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。