論文の概要: DeepInception: Hypnotize Large Language Model to Be Jailbreaker
- arxiv url: http://arxiv.org/abs/2311.03191v4
- Date: Thu, 23 May 2024 15:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 20:23:38.020627
- Title: DeepInception: Hypnotize Large Language Model to Be Jailbreaker
- Title(参考訳): DeepInception: 大きな言語モデルをジェイルブレーカーにする
- Authors: Xuan Li, Zhanke Zhou, Jianing Zhu, Jiangchao Yao, Tongliang Liu, Bo Han,
- Abstract要約: 大規模言語計算モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
本稿では,LDMをジェイルブレーカーに催眠機能を持たせる,DeepInceptionと呼ばれる軽量な手法を提案する。
経験的に、DeepInceptionは以前のものと競合するジェイルブレイクの成功率を達成することができる。
- 参考スコア(独自算出の注目度): 70.34096187718941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable success in various applications, large language models (LLMs) are vulnerable to adversarial jailbreaks that make the safety guardrails void. However, previous studies for jailbreaks usually resort to brute-force optimization or extrapolations of a high computation cost, which might not be practical or effective. In this paper, inspired by the Milgram experiment w.r.t. the authority power for inciting harmfulness, we disclose a lightweight method, termed as DeepInception, which can hypnotize an LLM to be a jailbreaker. Specifically, DeepInception leverages the personification ability of LLM to construct a virtual, nested scene to jailbreak, which realizes an adaptive way to escape the usage control in a normal scenario. Empirically, DeepInception can achieve competitive jailbreak success rates with previous counterparts and realize a continuous jailbreak in subsequent interactions, which reveals the critical weakness of self-losing on both open-source and closed-source LLMs like Falcon, Vicuna-v1.5, Llama-2, GPT-3.5, and GPT-4. The code is publicly available at: https://github.com/tmlr-group/DeepInception.
- Abstract(参考訳): 様々なアプリケーションで顕著な成功を収めたにもかかわらず、大きな言語モデル(LLM)は、安全ガードレールを無効にする敵のジェイルブレイクに対して脆弱である。
しかし、以前のジェイルブレイクの研究は、通常、高計算コストのブルートフォース最適化や外挿を頼りにしており、実際的あるいは効果的ではないかもしれない。
本稿では,害を誘発する権限であるミルグラム実験に触発されて,LLMをジェイルブレーカーとして催眠する「ディープインセプション」と呼ばれる軽量な手法を開示する。
具体的には、DeepInceptionはLLMの擬人化能力を活用して仮想ネストシーンをジェイルブレイクに構築し、通常のシナリオでの使用制御から逃れる適応的な方法を実現する。
DeepInceptionは,FalconやVicuna-v1.5,Llama-2,GPT-3.5,GPT-4といったオープンソースおよびクローズドソースのLLM上での自己損失の致命的な弱点を明らかにするものだ。
コードはhttps://github.com/tmlr-group/DeepInception.comで公開されている。
関連論文リスト
- Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [36.08357229578738]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。
TAPは、少数のクエリだけでプロンプトの80%以上をジェイルブレイク状態のLLMで実行するプロンプトを生成する。
TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2023-12-04T18:49:23Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - Self-Deception: Reverse Penetrating the Semantic Firewall of Large
Language Models [13.335189124991082]
本稿では, LLM ジェイルブレイク問題を調査し, 自動ジェイルブレイク手法を初めて提案する。
従来のファイアウォールを逆のトンネルで貫く攻撃にインスパイアされた私たちは、セマンティックファイアウォールをバイパスできる"自己認識"アタックを導入しました。
私たちは7つの仮想シナリオで6つの言語で合計2,520の攻撃ペイロードを生成しました。
論文 参考訳(メタデータ) (2023-08-16T09:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。