論文の概要: Scalable and Transferable Black-Box Jailbreaks for Language Models via
Persona Modulation
- arxiv url: http://arxiv.org/abs/2311.03348v1
- Date: Mon, 6 Nov 2023 18:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:10:19.944256
- Title: Scalable and Transferable Black-Box Jailbreaks for Language Models via
Persona Modulation
- Title(参考訳): ペルソナ変調による言語モデルのためのスケーラブルで転送可能なブラックボックスジェイルブレイク
- Authors: Rusheb Shah, Quentin Feuillade--Montixi, Soroush Pour, Arush Tagade,
Stephen Casper, Javier Rando
- Abstract要約: ブラックボックスジェイルブレイク法としてのペルソナ変調について検討し、有害な指示に従おうとする個人性を標的モデルに操る。
本稿では,メタンフェタミンの合成,爆弾の製作,マネーロンダリングなど,ペルソナ修飾による有害な完成例について紹介する。
私たちの研究は、商用の大規模言語モデルにおける新たな脆弱性を明らかにし、より包括的な保護の必要性を強調しています。
- 参考スコア(独自算出の注目度): 3.9946940518047396
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite efforts to align large language models to produce harmless responses,
they are still vulnerable to jailbreak prompts that elicit unrestricted
behaviour. In this work, we investigate persona modulation as a black-box
jailbreaking method to steer a target model to take on personalities that are
willing to comply with harmful instructions. Rather than manually crafting
prompts for each persona, we automate the generation of jailbreaks using a
language model assistant. We demonstrate a range of harmful completions made
possible by persona modulation, including detailed instructions for
synthesising methamphetamine, building a bomb, and laundering money. These
automated attacks achieve a harmful completion rate of 42.5% in GPT-4, which is
185 times larger than before modulation (0.23%). These prompts also transfer to
Claude 2 and Vicuna with harmful completion rates of 61.0% and 35.9%,
respectively. Our work reveals yet another vulnerability in commercial large
language models and highlights the need for more comprehensive safeguards.
- Abstract(参考訳): 大きな言語モデルを調整して無害な応答を生成する努力にもかかわらず、制限のない振る舞いを引き起こすジェイルブレイクプロンプトには依然として脆弱である。
本研究では,ブラックボックス脱獄法としてペルソナ変調法について検討し,有害な指示を順守しようとする個人性をターゲットモデルに制御する。
個人毎のプロンプトを手作業で作成するのではなく、言語モデルアシスタントを使用してジェイルブレイクを自動生成します。
我々は、メタンフェタミンの合成、爆弾の製作、マネーロンダリングなどの詳細な指示を含むペルソナ変調によって可能となった有害な完成範囲を示す。
これらの自動攻撃は、修正前(0.23%)より185倍大きいGPT-4の42.5%の有害な完成率を達成する。
これらのプロンプトは、それぞれ61.0%と35.9%の有害な完成率でclaude 2とvicunaに転送される。
私たちの研究は、商用大規模言語モデルの新たな脆弱性を明らかにし、より包括的なセーフガードの必要性を強調しています。
関連論文リスト
- Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models [29.312244478583665]
生成AIは、大きな言語モデル(LLM)へのユビキタスアクセスを可能にした
脱獄プロンプトは、セキュリティ制限を回避し、本来禁止されるように設計された有害なコンテンツを引き出す最も効果的なメカニズムの1つとして現れてきた。
LLMの専門知識に関わらず、ユーザはしばしばジェイルブレイクを成功させる。
また,脱獄即時生成のプロセスを自動化するアシスタントとしてAIを用いたシステムも開発している。
論文 参考訳(メタデータ) (2024-03-26T02:47:42Z) - Jailbreaking Proprietary Large Language Models using Word Substitution
Cipher [35.36615140853107]
暗号技術を用いて符号化したジェイルブレイクプロンプトを提示する。
我々は、安全でない単語を安全な単語でマッピングし、これらのマッピングされた単語を用いて安全でない質問を行う。
実験の結果、最先端のプロプライエタリモデルに対するジェイルブレイク手法の攻撃成功率(最大59.42%)が示されている。
論文 参考訳(メタデータ) (2024-02-16T11:37:05Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks [0.0]
本研究では,ジェイルブレイクプロンプトを効率的に作成するための簡単なブラックボックス手法を提案する。
本手法は有害なプロンプトを目的のLSMを直接利用した良性表現に反復的に変換する。
提案手法は, 平均5回の質問に対して, 80%以上の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-01-18T08:36:54Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Self-Deception: Reverse Penetrating the Semantic Firewall of Large
Language Models [13.335189124991082]
本稿では, LLM ジェイルブレイク問題を調査し, 自動ジェイルブレイク手法を初めて提案する。
従来のファイアウォールを逆のトンネルで貫く攻撃にインスパイアされた私たちは、セマンティックファイアウォールをバイパスできる"自己認識"アタックを導入しました。
私たちは7つの仮想シナリオで6つの言語で合計2,520の攻撃ペイロードを生成しました。
論文 参考訳(メタデータ) (2023-08-16T09:04:36Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。