論文の概要: DeepInception: Hypnotize Large Language Model to Be Jailbreaker
- arxiv url: http://arxiv.org/abs/2311.03191v4
- Date: Thu, 23 May 2024 15:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 20:23:38.020627
- Title: DeepInception: Hypnotize Large Language Model to Be Jailbreaker
- Title(参考訳): DeepInception: 大きな言語モデルをジェイルブレーカーにする
- Authors: Xuan Li, Zhanke Zhou, Jianing Zhu, Jiangchao Yao, Tongliang Liu, Bo Han,
- Abstract要約: 大規模言語計算モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
本稿では,LDMをジェイルブレーカーに催眠機能を持たせる,DeepInceptionと呼ばれる軽量な手法を提案する。
経験的に、DeepInceptionは以前のものと競合するジェイルブレイクの成功率を達成することができる。
- 参考スコア(独自算出の注目度): 70.34096187718941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable success in various applications, large language models (LLMs) are vulnerable to adversarial jailbreaks that make the safety guardrails void. However, previous studies for jailbreaks usually resort to brute-force optimization or extrapolations of a high computation cost, which might not be practical or effective. In this paper, inspired by the Milgram experiment w.r.t. the authority power for inciting harmfulness, we disclose a lightweight method, termed as DeepInception, which can hypnotize an LLM to be a jailbreaker. Specifically, DeepInception leverages the personification ability of LLM to construct a virtual, nested scene to jailbreak, which realizes an adaptive way to escape the usage control in a normal scenario. Empirically, DeepInception can achieve competitive jailbreak success rates with previous counterparts and realize a continuous jailbreak in subsequent interactions, which reveals the critical weakness of self-losing on both open-source and closed-source LLMs like Falcon, Vicuna-v1.5, Llama-2, GPT-3.5, and GPT-4. The code is publicly available at: https://github.com/tmlr-group/DeepInception.
- Abstract(参考訳): 様々なアプリケーションで顕著な成功を収めたにもかかわらず、大きな言語モデル(LLM)は、安全ガードレールを無効にする敵のジェイルブレイクに対して脆弱である。
しかし、以前のジェイルブレイクの研究は、通常、高計算コストのブルートフォース最適化や外挿を頼りにしており、実際的あるいは効果的ではないかもしれない。
本稿では,害を誘発する権限であるミルグラム実験に触発されて,LLMをジェイルブレーカーとして催眠する「ディープインセプション」と呼ばれる軽量な手法を開示する。
具体的には、DeepInceptionはLLMの擬人化能力を活用して仮想ネストシーンをジェイルブレイクに構築し、通常のシナリオでの使用制御から逃れる適応的な方法を実現する。
DeepInceptionは,FalconやVicuna-v1.5,Llama-2,GPT-3.5,GPT-4といったオープンソースおよびクローズドソースのLLM上での自己損失の致命的な弱点を明らかにするものだ。
コードはhttps://github.com/tmlr-group/DeepInception.comで公開されている。
関連論文リスト
- AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
主要なjailbreak攻撃に対して,メインストリームのGPT-3.5/4モデルを使用することを実証的に検証した。
防衛の堅牢性をさらに向上し、コストを最小化するために、我々は専用のオープンソース防衛モデルをチューニングするためにデータ蒸留アプローチを採用している。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Self-Deception: Reverse Penetrating the Semantic Firewall of Large
Language Models [13.335189124991082]
本稿では, LLM ジェイルブレイク問題を調査し, 自動ジェイルブレイク手法を初めて提案する。
従来のファイアウォールを逆のトンネルで貫く攻撃にインスパイアされた私たちは、セマンティックファイアウォールをバイパスできる"自己認識"アタックを導入しました。
私たちは7つの仮想シナリオで6つの言語で合計2,520の攻撃ペイロードを生成しました。
論文 参考訳(メタデータ) (2023-08-16T09:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。