論文の概要: Self-Deception: Reverse Penetrating the Semantic Firewall of Large
Language Models
- arxiv url: http://arxiv.org/abs/2308.11521v1
- Date: Wed, 16 Aug 2023 09:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-27 04:57:25.131851
- Title: Self-Deception: Reverse Penetrating the Semantic Firewall of Large
Language Models
- Title(参考訳): 自己認識: 大言語モデルのセマンティクスファイアウォールを逆侵入する
- Authors: Zhenhua Wang, Wei Xie, Kai Chen, Baosheng Wang, Zhiwen Gui, Enze Wang
- Abstract要約: 本稿では, LLM ジェイルブレイク問題を調査し, 自動ジェイルブレイク手法を初めて提案する。
従来のファイアウォールを逆のトンネルで貫く攻撃にインスパイアされた私たちは、セマンティックファイアウォールをバイパスできる"自己認識"アタックを導入しました。
私たちは7つの仮想シナリオで6つの言語で合計2,520の攻撃ペイロードを生成しました。
- 参考スコア(独自算出の注目度): 13.335189124991082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), such as ChatGPT, have emerged with astonishing
capabilities approaching artificial general intelligence. While providing
convenience for various societal needs, LLMs have also lowered the cost of
generating harmful content. Consequently, LLM developers have deployed
semantic-level defenses to recognize and reject prompts that may lead to
inappropriate content. Unfortunately, these defenses are not foolproof, and
some attackers have crafted "jailbreak" prompts that temporarily hypnotize the
LLM into forgetting content defense rules and answering any improper questions.
To date, there is no clear explanation of the principles behind these
semantic-level attacks and defenses in both industry and academia.
This paper investigates the LLM jailbreak problem and proposes an automatic
jailbreak method for the first time. We propose the concept of a semantic
firewall and provide three technical implementation approaches. Inspired by the
attack that penetrates traditional firewalls through reverse tunnels, we
introduce a "self-deception" attack that can bypass the semantic firewall by
inducing LLM to generate prompts that facilitate jailbreak. We generated a
total of 2,520 attack payloads in six languages (English, Russian, French,
Spanish, Chinese, and Arabic) across seven virtual scenarios, targeting the
three most common types of violations: violence, hate, and pornography. The
experiment was conducted on two models, namely the GPT-3.5-Turbo and GPT-4. The
success rates on the two models were 86.2% and 67%, while the failure rates
were 4.7% and 2.2%, respectively. This highlighted the effectiveness of the
proposed attack method. All experimental code and raw data will be released as
open-source to inspire future research. We believe that manipulating AI
behavior through carefully crafted prompts will become an important research
direction in the future.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、人工知能に接近する驚くべき能力をもって登場した。
様々な社会的ニーズに便利なものを提供する一方で、LSMは有害なコンテンツを生み出すコストを下げている。
その結果、llm開発者は、不適切なコンテンツにつながる可能性のあるプロンプトを認識し、拒否するために、セマンティックレベルの防御を展開している。
攻撃者は「ジェイルブレイク(jailbreak)」というプロンプトを作り、LCMは一時的に催眠術を施し、コンテンツ防衛規則を忘れ、不適切な質問に答えた。
現在、これらのセマンティックレベルの攻撃と防衛の背景にある原則は、業界と学術の両方で明確に説明されていない。
本稿では,llm脱獄問題を調査し,最初に自動脱獄法を提案する。
セマンティックファイアウォールの概念を提案し、3つの技術的実装アプローチを提供する。
逆のトンネルを通して従来のファイアウォールを貫通する攻撃にインスパイアされた私たちは、LDMを誘導して、ジェイルブレイクを促進するプロンプトを生成することで、セマンティックファイアウォールをバイパスできる"自己偽装"攻撃を導入する。
私たちは7つの仮想シナリオで6つの言語(英語、ロシア語、フランス語、スペイン語、中国語、アラビア語)で合計2,520の攻撃ペイロードを生成しました。
実験は2つのモデル(GPT-3.5-TurboとGPT-4)で実施された。
2つのモデルの成功率は86.2%と67%であり、失敗率は4.7%と2.2%であった。
これにより,提案手法の有効性が示された。
実験コードと生データはオープンソースとしてリリースされ、将来の研究を刺激します。
私たちは、慎重に作り上げたプロンプトを通じてAIの振る舞いを操作することが、将来重要な研究の方向になるだろうと考えています。
関連論文リスト
- Playing Language Game with LLMs Leads to Jailbreaking [18.63358696510664]
ミスマッチした言語ゲームとカスタム言語ゲームに基づく2つの新しいジェイルブレイク手法を導入する。
GPT-4oでは93%, GPT-4o-miniでは89%, Claude-3.5-Sonnetでは83%であった。
論文 参考訳(メタデータ) (2024-11-16T13:07:13Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
我々は,ブラックボックスファジテストのアプローチを,一連のカスタマイズされた設計で適応させる新しいジェイルブレイク攻撃フレームワークを提案する。
攻撃成功率は90%,80%,74%以上であり,既存のベースラインを60%以上越えている。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles [10.109063166962079]
本稿では,言語モデルモデル(LLM)の注意を移す新しいタイプのジェイルブレイク攻撃を提案する。
提案攻撃では,知識グラフとLLMを利用して,禁止クエリのトピックに類似したキャリア記事を自動的に生成する。
実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。
論文 参考訳(メタデータ) (2024-08-20T20:35:04Z) - h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。
我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。
合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。