Fugu-MT 論文翻訳(概要): Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation

論文の概要: Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation

arxiv url: http://arxiv.org/abs/2311.03348v2
Date: Fri, 24 Nov 2023 12:50:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 02:39:07.326026
Title: Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation
Title（参考訳）: ペルソナ変調による言語モデルのためのスケーラブルで転送可能なブラックボックスジェイルブレイク
Authors: Rusheb Shah, Quentin Feuillade--Montixi, Soroush Pour, Arush Tagade, Stephen Casper, Javier Rando
Abstract要約: ブラックボックスジェイルブレイク法としてのペルソナ変調について検討し、有害な指示に従おうとする個人性を標的モデルに操る。本稿では,メタンフェタミンの合成,爆弾の製作,マネーロンダリングなど,ペルソナ修飾による有害な完成例について紹介する。私たちの研究は、商用の大規模言語モデルにおける新たな脆弱性を明らかにし、より包括的な保護の必要性を強調しています。
参考スコア（独自算出の注目度）: 3.9946940518047396
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite efforts to align large language models to produce harmless responses, they are still vulnerable to jailbreak prompts that elicit unrestricted behaviour. In this work, we investigate persona modulation as a black-box jailbreaking method to steer a target model to take on personalities that are willing to comply with harmful instructions. Rather than manually crafting prompts for each persona, we automate the generation of jailbreaks using a language model assistant. We demonstrate a range of harmful completions made possible by persona modulation, including detailed instructions for synthesising methamphetamine, building a bomb, and laundering money. These automated attacks achieve a harmful completion rate of 42.5% in GPT-4, which is 185 times larger than before modulation (0.23%). These prompts also transfer to Claude 2 and Vicuna with harmful completion rates of 61.0% and 35.9%, respectively. Our work reveals yet another vulnerability in commercial large language models and highlights the need for more comprehensive safeguards.
Abstract（参考訳）: 大きな言語モデルを調整して無害な応答を生成する努力にもかかわらず、制限のない振る舞いを引き起こすジェイルブレイクプロンプトには依然として脆弱である。本研究では,ブラックボックス脱獄法としてペルソナ変調法について検討し,有害な指示を順守しようとする個人性をターゲットモデルに制御する。個人毎のプロンプトを手作業で作成するのではなく、言語モデルアシスタントを使用してジェイルブレイクを自動生成します。我々は、メタンフェタミンの合成、爆弾の製作、マネーロンダリングなどの詳細な指示を含むペルソナ変調によって可能となった有害な完成範囲を示す。これらの自動攻撃は、修正前(0.23%)より185倍大きいGPT-4の42.5%の有害な完成率を達成する。これらのプロンプトは、それぞれ61.0%と35.9%の有害な完成率でclaude 2とvicunaに転送される。私たちの研究は、商用大規模言語モデルの新たな脆弱性を明らかにし、より包括的なセーフガードの必要性を強調しています。

関連論文リスト

TurboFuzzLLM: Turbocharging Mutation-based Fuzzing for Effectively Jailbreaking Large Language Models in Practice [11.604916489588778]
我々は,有効なジェイルブレイクテンプレートのコレクションを効率よく見つけるために,突然変異ベースのファジリング技術であるTurboFuzzLLMを提案する。 TurboFuzzLLMは、LLMをリードする公開データセットに対して、95%の攻撃成功率で$geqを達成している。
論文参考訳（メタデータ） (2025-02-21T21:10:12Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。 IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文参考訳（メタデータ） (2024-10-29T07:15:56Z)
Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文参考訳（メタデータ） (2024-10-28T14:48:05Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。我々は,ブラックボックスファジテストのアプローチを,一連のカスタマイズされた設計で適応させる新しいジェイルブレイク攻撃フレームワークを提案する。攻撃成功率は90%,80%,74%以上であり,既存のベースラインを60%以上越えている。
論文参考訳（メタデータ） (2024-09-23T10:03:09Z)
BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文参考訳（メタデータ） (2024-08-17T04:43:26Z)
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文参考訳（メタデータ） (2024-05-14T04:51:23Z)
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。 GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文参考訳（メタデータ） (2023-11-15T17:17:39Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。