論文の概要: Self-Deception: Reverse Penetrating the Semantic Firewall of Large
Language Models
- arxiv url: http://arxiv.org/abs/2308.11521v2
- Date: Fri, 25 Aug 2023 00:25:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:33:43.863877
- Title: Self-Deception: Reverse Penetrating the Semantic Firewall of Large
Language Models
- Title(参考訳): 自己認識: 大言語モデルのセマンティクスファイアウォールを逆侵入する
- Authors: Zhenhua Wang, Wei Xie, Kai Chen, Baosheng Wang, Zhiwen Gui, Enze Wang
- Abstract要約: 本稿では, LLM ジェイルブレイク問題を調査し, 自動ジェイルブレイク手法を初めて提案する。
従来のファイアウォールを逆のトンネルで貫く攻撃にインスパイアされた私たちは、セマンティックファイアウォールをバイパスできる"自己認識"アタックを導入しました。
私たちは7つの仮想シナリオで6つの言語で合計2,520の攻撃ペイロードを生成しました。
- 参考スコア(独自算出の注目度): 13.335189124991082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), such as ChatGPT, have emerged with astonishing
capabilities approaching artificial general intelligence. While providing
convenience for various societal needs, LLMs have also lowered the cost of
generating harmful content. Consequently, LLM developers have deployed
semantic-level defenses to recognize and reject prompts that may lead to
inappropriate content. Unfortunately, these defenses are not foolproof, and
some attackers have crafted "jailbreak" prompts that temporarily hypnotize the
LLM into forgetting content defense rules and answering any improper questions.
To date, there is no clear explanation of the principles behind these
semantic-level attacks and defenses in both industry and academia.
This paper investigates the LLM jailbreak problem and proposes an automatic
jailbreak method for the first time. We propose the concept of a semantic
firewall and provide three technical implementation approaches. Inspired by the
attack that penetrates traditional firewalls through reverse tunnels, we
introduce a "self-deception" attack that can bypass the semantic firewall by
inducing LLM to generate prompts that facilitate jailbreak. We generated a
total of 2,520 attack payloads in six languages (English, Russian, French,
Spanish, Chinese, and Arabic) across seven virtual scenarios, targeting the
three most common types of violations: violence, hate, and pornography. The
experiment was conducted on two models, namely the GPT-3.5-Turbo and GPT-4. The
success rates on the two models were 86.2% and 67%, while the failure rates
were 4.7% and 2.2%, respectively. This highlighted the effectiveness of the
proposed attack method. All experimental code and raw data will be released as
open-source to inspire future research. We believe that manipulating AI
behavior through carefully crafted prompts will become an important research
direction in the future.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、人工知能に接近する驚くべき能力をもって登場した。
様々な社会的ニーズに便利なものを提供する一方で、LSMは有害なコンテンツを生み出すコストを下げている。
その結果、llm開発者は、不適切なコンテンツにつながる可能性のあるプロンプトを認識し、拒否するために、セマンティックレベルの防御を展開している。
攻撃者は「ジェイルブレイク(jailbreak)」というプロンプトを作り、LCMは一時的に催眠術を施し、コンテンツ防衛規則を忘れ、不適切な質問に答えた。
現在、これらのセマンティックレベルの攻撃と防衛の背景にある原則は、業界と学術の両方で明確に説明されていない。
本稿では,llm脱獄問題を調査し,最初に自動脱獄法を提案する。
セマンティックファイアウォールの概念を提案し、3つの技術的実装アプローチを提供する。
逆のトンネルを通して従来のファイアウォールを貫通する攻撃にインスパイアされた私たちは、LDMを誘導して、ジェイルブレイクを促進するプロンプトを生成することで、セマンティックファイアウォールをバイパスできる"自己偽装"攻撃を導入する。
私たちは7つの仮想シナリオで6つの言語(英語、ロシア語、フランス語、スペイン語、中国語、アラビア語)で合計2,520の攻撃ペイロードを生成しました。
実験は2つのモデル(GPT-3.5-TurboとGPT-4)で実施された。
2つのモデルの成功率は86.2%と67%であり、失敗率は4.7%と2.2%であった。
これにより,提案手法の有効性が示された。
実験コードと生データはオープンソースとしてリリースされ、将来の研究を刺激します。
私たちは、慎重に作り上げたプロンプトを通じてAIの振る舞いを操作することが、将来重要な研究の方向になるだろうと考えています。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Playing Language Game with LLMs Leads to Jailbreaking [18.63358696510664]
ミスマッチした言語ゲームとカスタム言語ゲームに基づく2つの新しいジェイルブレイク手法を導入する。
GPT-4oでは93%, GPT-4o-miniでは89%, Claude-3.5-Sonnetでは83%であった。
論文 参考訳(メタデータ) (2024-11-16T13:07:13Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
本稿では,PAPILLONと呼ばれる新しいジェイルブレイク攻撃フレームワークを紹介する。
自動化されたブラックボックスのジェイルブレイク攻撃フレームワークで、一連のカスタマイズされた設計でブラックボックスのファズテストアプローチを適用する。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - DeepInception: Hypnotize Large Language Model to Be Jailbreaker [70.34096187718941]
大規模言語モデル(LLM)は様々な用途で大きく成功しているが、相変わらず敵のジェイルブレイクの影響を受けやすい。
LLMのパーソナライズ機能を活用して$textita仮想ネストシーンを構築する手法を提案する。
経験的に,本手法によって引き起こされた内容は,従来と異なる有害度率を達成することができる。
論文 参考訳(メタデータ) (2023-11-06T15:29:30Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。