論文の概要: Scalable and Transferable Black-Box Jailbreaks for Language Models via
Persona Modulation
- arxiv url: http://arxiv.org/abs/2311.03348v2
- Date: Fri, 24 Nov 2023 12:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 02:39:07.326026
- Title: Scalable and Transferable Black-Box Jailbreaks for Language Models via
Persona Modulation
- Title(参考訳): ペルソナ変調による言語モデルのためのスケーラブルで転送可能なブラックボックスジェイルブレイク
- Authors: Rusheb Shah, Quentin Feuillade--Montixi, Soroush Pour, Arush Tagade,
Stephen Casper, Javier Rando
- Abstract要約: ブラックボックスジェイルブレイク法としてのペルソナ変調について検討し、有害な指示に従おうとする個人性を標的モデルに操る。
本稿では,メタンフェタミンの合成,爆弾の製作,マネーロンダリングなど,ペルソナ修飾による有害な完成例について紹介する。
私たちの研究は、商用の大規模言語モデルにおける新たな脆弱性を明らかにし、より包括的な保護の必要性を強調しています。
- 参考スコア(独自算出の注目度): 3.9946940518047396
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite efforts to align large language models to produce harmless responses,
they are still vulnerable to jailbreak prompts that elicit unrestricted
behaviour. In this work, we investigate persona modulation as a black-box
jailbreaking method to steer a target model to take on personalities that are
willing to comply with harmful instructions. Rather than manually crafting
prompts for each persona, we automate the generation of jailbreaks using a
language model assistant. We demonstrate a range of harmful completions made
possible by persona modulation, including detailed instructions for
synthesising methamphetamine, building a bomb, and laundering money. These
automated attacks achieve a harmful completion rate of 42.5% in GPT-4, which is
185 times larger than before modulation (0.23%). These prompts also transfer to
Claude 2 and Vicuna with harmful completion rates of 61.0% and 35.9%,
respectively. Our work reveals yet another vulnerability in commercial large
language models and highlights the need for more comprehensive safeguards.
- Abstract(参考訳): 大きな言語モデルを調整して無害な応答を生成する努力にもかかわらず、制限のない振る舞いを引き起こすジェイルブレイクプロンプトには依然として脆弱である。
本研究では,ブラックボックス脱獄法としてペルソナ変調法について検討し,有害な指示を順守しようとする個人性をターゲットモデルに制御する。
個人毎のプロンプトを手作業で作成するのではなく、言語モデルアシスタントを使用してジェイルブレイクを自動生成します。
我々は、メタンフェタミンの合成、爆弾の製作、マネーロンダリングなどの詳細な指示を含むペルソナ変調によって可能となった有害な完成範囲を示す。
これらの自動攻撃は、修正前(0.23%)より185倍大きいGPT-4の42.5%の有害な完成率を達成する。
これらのプロンプトは、それぞれ61.0%と35.9%の有害な完成率でclaude 2とvicunaに転送される。
私たちの研究は、商用大規模言語モデルの新たな脆弱性を明らかにし、より包括的なセーフガードの必要性を強調しています。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。
提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文 参考訳(メタデータ) (2024-10-28T14:48:05Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
本稿では,PAPILLONと呼ばれる新しいジェイルブレイク攻撃フレームワークを紹介する。
自動化されたブラックボックスのジェイルブレイク攻撃フレームワークで、一連のカスタマイズされた設計でブラックボックスのファズテストアプローチを適用する。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。
我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。
本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文 参考訳(メタデータ) (2024-05-14T04:51:23Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。