論文の概要: Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial
Tuning
- arxiv url: http://arxiv.org/abs/2402.06255v1
- Date: Fri, 9 Feb 2024 09:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:42:58.507925
- Title: Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial
Tuning
- Title(参考訳): Studious Bobがプロンプトの逆行で脱獄に抵抗
- Authors: Yichuan Mo, Yuji Wang, Zeming Wei, Yisen Wang
- Abstract要約: 本稿では,PAT(Prompt Adversarial Tuning)という手法を用いて,防御制御機構を訓練する手法を提案する。
我々は、最適化された目標を達成するために、敵の訓練に似た訓練プロセスを設計する。
提案手法はブラックボックスとホワイトボックスの両方で有効である。
- 参考スコア(独自算出の注目度): 25.732636833706845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Models (LLMs) have achieved tremendous success in
various applications, they are also susceptible to certain prompts that can
induce them to bypass built-in safety measures and provide dangerous or illegal
content, a phenomenon known as jailbreak. To protect LLMs from producing
harmful information, various defense strategies are proposed, with most
focusing on content filtering or adversarial training of models. In this paper,
we propose an approach named Prompt Adversarial Tuning (PAT) to train a defense
control mechanism, which is then embedded as a prefix to user prompts to
implement our defense strategy. We design a training process similar to
adversarial training to achieve our optimized goal, alternating between
updating attack and defense controls. To our knowledge, we are the first to
implement defense from the perspective of prompt tuning. Once employed, our
method will hardly impact the operational efficiency of LLMs. Experiments show
that our method is effective in both black-box and white-box settings, reducing
the success rate of advanced attacks to nearly 0 while maintaining the benign
answer rate of 80% to simple benign questions. Our work might potentially chart
a new perspective for future explorations in LLM security.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なアプリケーションで大きな成功を収めているが、それらはビルトインの安全対策をバイパスし、危険または違法なコンテンツを提供するような特定のプロンプトに影響を受けやすい。
llmが有害な情報を生成するのを防ぐため、様々な防衛戦略が提案されており、そのほとんどはコンテンツフィルタリングやモデルの敵対的訓練に焦点が当てられている。
本稿では,PAT(Prompt Adversarial Tuning)という手法を用いて,防衛制御機構を訓練し,ユーザに対して,防衛戦略の実装を促すためのプレフィックスとして組み込む手法を提案する。
我々は、攻撃と防御制御の更新を交互に行い、最適化された目標を達成するために、敵の訓練に似た訓練プロセスを設計する。
我々の知る限りでは、我々は即時チューニングの観点から最初に防御を実装している。
一度使用すれば, LLMの運用効率にはほとんど影響しない。
実験の結果,本手法はブラックボックスとホワイトボックスの両方において有効であり,80%の良質な回答率を維持しつつ,アドバンスト攻撃の成功率をほぼ0に抑えることができた。
我々の研究は将来のLLMセキュリティの新たな展望を示すかもしれない。
関連論文リスト
- Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector [62.23945242640024]
本稿では,概念に基づくモデル記述を用いたLLM攻撃手法を提案する。
安全概念アクティベーションベクトル(SCAV)をLLMのアクティベーション空間から抽出し、適切に整列されたLCMに対する効率的な攻撃を可能にする。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks
with Self-Refinement [2.854482269849925]
言語モデル(LM)は、敵の誤用に対する悪用に対して脆弱である。
安全でないLMであっても、優れた安全性を実現するフォーマッティングによる自己再定義を提案する。
また、安全性に配慮しないLMは、より便利で安全な応答を提供することで、安全に配慮したLMよりも優れていることも見てきた。
論文 参考訳(メタデータ) (2024-02-23T08:22:24Z) - Defending Jailbreak Prompts via In-Context Adversarial Game [34.83853184278604]
In-Context Adversarial Game(ICAG)を導入し、細調整を必要とせずにジェイルブレイクを防御する。
静的データセットに依存する従来の方法とは異なり、ICAGは防御エージェントと攻撃エージェントの両方を強化するために反復的なプロセスを採用している。
ICAGにより保護されたLSMがジェイルブレイクの成功率を大幅に低下させるICAGの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-20T17:04:06Z) - Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation
Engineering [44.10397472780012]
Representation Engineering (JRE) による Jailbreaking LLMs という新しいjailbreakingアプローチを提案する。
本手法では,対象モデルの防御を回避できる「安全パターン」を抽出するために,少数のクエリペアしか必要としない。
また、これらの知見に基づいて、JRE原則に着想を得た新しい防御フレームワークを導入し、顕著な効果を示した。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Backdoor Activation Attack: Attack Large Language Models using
Activation Steering for Safety-Alignment [36.91218391728405]
本稿では,Large Language Modelsの安全性アライメントの脆弱性について検討する。
LLMの既存の攻撃方法は、有毒な訓練データや悪意のあるプロンプトの注入に依存している。
最適化を必要とせず, ステアリングベクターによるモデル動作の修正に成功した最近の成功に触発されて, リピートLLMにおけるその有効性に着想を得た。
実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドはほとんどあるいは全く生じないことが判明した。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。