論文の概要: Intention Analysis Prompting Makes Large Language Models A Good
Jailbreak Defender
- arxiv url: http://arxiv.org/abs/2401.06561v1
- Date: Fri, 12 Jan 2024 13:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:19:46.458091
- Title: Intention Analysis Prompting Makes Large Language Models A Good
Jailbreak Defender
- Title(参考訳): Intention Analysis Promptingは、大きな言語モデルを良いジェイルブレイクディフェンダーにする
- Authors: Yuqi Zhang and Liang Ding and Lefei Zhang and Dacheng Tao
- Abstract要約: IAプロンプトは反応における有害性(平均-46.5%の攻撃成功率)を低減し、一般的な有用性を維持することができる。
簡単にするために、コードとスクリプトをhttps://github.com/alphadl/SafeLLM_with_IntentionAnalysisでリリースします。
- 参考スコア(独自算出の注目度): 86.74040391751399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with human values, particularly in the
face of stealthy and complex jailbreaks, presents a formidable challenge. In
this study, we present a simple yet highly effective defense strategy, i.e.,
Intention Analysis Prompting (IAPrompt). The principle behind is to trigger
LLMs' inherent self-correct and improve ability through a two-stage process: 1)
essential intention analysis, and 2) policy-aligned response. Notably, IAPrompt
is an inference-only method, thus could enhance the safety of LLMs without
compromising their helpfulness. Extensive experiments on SAP200 and DAN
benchmarks across Vicuna, ChatGLM, MPT, DeepSeek, and GPT-3.5 show that
IAPrompt could consistently and significantly reduce the harmfulness in
response (averagely -46.5% attack success rate) and maintain the general
helpfulness. Further analyses present some insights into how our method works.
To facilitate reproducibility, We release our code and scripts at:
https://github.com/alphadl/SafeLLM_with_IntentionAnalysis
- Abstract(参考訳): 大きな言語モデル(LLM)を人間の価値、特にステルスと複雑なジェイルブレイクに直面して調整することは、恐ろしい挑戦だ。
本研究では,IAプロンプト(Intention Analysis Prompting, IAプロンプト)という,シンプルで効果的な防衛戦略を提案する。
背景にある原則は、LSM固有の自己修正をトリガーし、2段階のプロセスを通じて能力を改善することである。
1)本質的意図分析、及び
2)政策対応対応。
特にIAPromptは推論のみの手法であり,その有用性を損なうことなくLLMの安全性を高めることができる。
Vicuna、ChatGLM、MPT、DeepSeek、GPT-3.5をまたいだSAP200とDANベンチマークの大規模な実験では、IAPromptは反応における有害性(平均-46.5%の攻撃成功率)を一貫して大幅に低減し、一般的な有用性を維持することができた。
さらなる分析は、我々の方法がどのように機能するかについての洞察を与える。
再現性を促進するため、コードとスクリプトをhttps://github.com/alphadl/SafeLLM_with_IntentionAnalysisでリリースします。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
LIAR(Leveraging Inference Time Alignment to jailbReak)は、ジェイルブレイク攻撃に適した高速で効率的なNのアプローチである。
その結果, 最適Nアプローチは, 整列LLMのロバスト性を評価する上で, 単純かつ高効率な戦略であることがわかった。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation [39.829517061574364]
さらに慎重に整列されたモデルも悪意ある操作が可能で、意図しない動作が"jailbreaks"と呼ばれる。
本稿では,デコード方式のバリエーションのみを操作することで,モデルアライメントを阻害するジェネレーションエクスプロイト攻撃を提案する。
本研究は,オープンソースのLCMの安全性評価およびアライメント手順において,大きな失敗を指摘したものである。
論文 参考訳(メタデータ) (2023-10-10T20:15:54Z) - Safe Linear Bandits over Unknown Polytopes [39.177982674455784]
安全線形バンディット問題(英: safe linear bandit problem、SLB)は、線形プログラミングのオンライン手法である。
ポリトープ上でのSLBの有効性とスムーズな安全性のトレードオフについて検討した。
論文 参考訳(メタデータ) (2022-09-27T21:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。