論文の概要: DeepInception: Hypnotize Large Language Model to Be Jailbreaker
- arxiv url: http://arxiv.org/abs/2311.03191v3
- Date: Tue, 6 Feb 2024 07:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:49:48.546007
- Title: DeepInception: Hypnotize Large Language Model to Be Jailbreaker
- Title(参考訳): DeepInception: 大きな言語モデルをジェイルブレーカーにする
- Authors: Xuan Li, Zhanke Zhou, Jianing Zhu, Jiangchao Yao, Tongliang Liu, Bo
Han
- Abstract要約: 大規模言語計算モデル(LLM)は、安全ガードレールを無効にする敵のジェイルブレイクに対して脆弱である。
本稿では,LDMをジェイルブレーカーとして容易に催眠できる,DeepInceptionと呼ばれる軽量な手法を提案する。
- 参考スコア(独自算出の注目度): 74.53439609195024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable success in various applications, large language models
(LLMs) are vulnerable to adversarial jailbreaks that make the safety guardrails
void. However, previous studies for jailbreaks usually resort to brute-force
optimization or extrapolations of a high computation cost, which might not be
practical or effective. In this paper, inspired by the Milgram experiment
w.r.t. the authority power for inciting harmfulness, we disclose a lightweight
method, termed DeepInception, which can easily hypnotize LLM to be a
jailbreaker. Specifically, DeepInception leverages the personification ability
of LLM to construct a novel nested scene to behave, which realizes an adaptive
way to escape the usage control in a normal scenario. Empirically, our
DeepInception can achieve competitive jailbreak success rates with previous
counterparts and realize a continuous jailbreak in subsequent interactions,
which reveals the critical weakness of self-losing on both open and
closed-source LLMs like Falcon, Vicuna-v1.5, Llama-2, and GPT-3.5-turbo/4. Our
investigation appeals to people to pay more attention to the safety aspects of
LLMs and develop a stronger defense against their misuse risks. The code is
publicly available at: https://github.com/tmlr-group/DeepInception.
- Abstract(参考訳): 様々なアプリケーションで顕著な成功を収めたにもかかわらず、大規模な言語モデル(llm)は、safe guardrailsを無効にする敵のジェイルブレイクに対して脆弱である。
しかし、従来のジェイルブレイクの研究では、計算コストの高いブルートフォース最適化や外挿が必要であり、実用的でも効果的でもない。
本稿では,害を誘発する権限であるミルグラム実験に触発されて,LLMをジェイルブレーカーとして容易に催眠できる,DeepInceptionと呼ばれる軽量な手法を開示する。
特に、DeepInceptionは、LLMの擬人化能力を活用して、新しいネストシーンを構築し、通常のシナリオでの使用制御から逃れる適応的な方法を実現する。
DeepInceptionは,FalconやVicuna-v1.5,Llama-2,GPT-3.5-turbo/4といったオープンかつクローズドなLLM上での自己ローディングの致命的な弱点を浮き彫りにしています。
我々の調査は、LSMの安全性面により注意を払って、悪用リスクに対するより強力な防御を開発するよう訴えている。
コードはhttps://github.com/tmlr-group/deepinceptionで公開されている。
関連論文リスト
- AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
主要なjailbreak攻撃に対して,メインストリームのGPT-3.5/4モデルを使用することを実証的に検証した。
防衛の堅牢性をさらに向上し、コストを最小化するために、我々は専用のオープンソース防衛モデルをチューニングするためにデータ蒸留アプローチを採用している。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Self-Deception: Reverse Penetrating the Semantic Firewall of Large
Language Models [13.335189124991082]
本稿では, LLM ジェイルブレイク問題を調査し, 自動ジェイルブレイク手法を初めて提案する。
従来のファイアウォールを逆のトンネルで貫く攻撃にインスパイアされた私たちは、セマンティックファイアウォールをバイパスできる"自己認識"アタックを導入しました。
私たちは7つの仮想シナリオで6つの言語で合計2,520の攻撃ペイロードを生成しました。
論文 参考訳(メタデータ) (2023-08-16T09:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。