論文の概要: SQL Injection Jailbreak: A Structural Disaster of Large Language Models
- arxiv url: http://arxiv.org/abs/2411.01565v5
- Date: Fri, 28 Feb 2025 00:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 16:38:45.118033
- Title: SQL Injection Jailbreak: A Structural Disaster of Large Language Models
- Title(参考訳): SQLインジェクションの脱獄 - 大規模言語モデルの構造的障害
- Authors: Jiawei Zhao, Kejiang Chen, Weiming Zhang, Nenghai Yu,
- Abstract要約: 本稿では,有害なコンテンツを生成するために,大規模言語モデル(LLM)を誘導する新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJ に対抗するためのセルフリマインダーキー (Self-Reminder-Key) という簡単な防御手法を提案し,その有効性を実証する。
- 参考スコア(独自算出の注目度): 71.55108680517422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the rapid development of large language models (LLMs) has brought new vitality into various domains, generating substantial social and economic benefits. However, jailbreaking, a form of attack that induces LLMs to produce harmful content through carefully crafted prompts, presents a significant challenge to the safe and trustworthy development of LLMs. Previous jailbreak methods primarily exploited the internal properties or capabilities of LLMs, such as optimization-based jailbreak methods and methods that leveraged the model's context-learning abilities. In this paper, we introduce a novel jailbreak method, SQL Injection Jailbreak (SIJ), which targets the external properties of LLMs, specifically, the way LLMs construct input prompts. By injecting jailbreak information into user prompts, SIJ successfully induces the model to output harmful content. For open-source models, SIJ achieves near 100\% attack success rates on five well-known LLMs on the AdvBench and HEx-PHI, while incurring lower time costs compared to previous methods. For closed-source models, SIJ achieves an average attack success rate over 85\% across five models in the GPT and Doubao series. Additionally, SIJ exposes a new vulnerability in LLMs that urgently requires mitigation. To address this, we propose a simple defense method called Self-Reminder-Key to counter SIJ and demonstrate its effectiveness through experimental results. Our code is available at https://github.com/weiyezhimeng/SQL-Injection-Jailbreak.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) の急速な発展は,様々な領域に新たな活力をもたらし,社会的・経済的利益を生み出している。
しかしジェイルブレーキング(Jailbreaking)は、LLMの安全で信頼性の高い開発において重要な課題である。
以前のjailbreakメソッドは主に、最適化ベースのjailbreakメソッドや、モデルのコンテキスト学習能力を活用するメソッドなど、LCMの内部特性や能力を利用していた。
本稿では LLM の外部特性,特に LLM が入力プロンプトを構成する方法をターゲットにした新しいjailbreak法である SQL Injection Jailbreak (SIJ) を紹介する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
オープンソースモデルでは、SIJは、AdvBenchとHEx-PHIの5つのよく知られたLCMに対して100倍近い攻撃成功率を達成するが、従来の方法に比べて時間コストが低い。
クローズドソースモデルでは、SIJ は GPT と Doubao シリーズの 5 モデルに対して 85 % 以上の攻撃成功率を達成する。
さらに、SIJは、緊急に緩和を必要とするLSMに新しい脆弱性を公開する。
そこで本研究では,SIJに対抗し,実験結果を通じてその有効性を実証する,セルフリマインダーキー(Self-Reminder-Key)と呼ばれる簡易防衛手法を提案する。
私たちのコードはhttps://github.com/weiyezhimeng/SQL-Injection-Jailbreakで公開しています。
関連論文リスト
- Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。
ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - SeqAR: Jailbreak LLMs with Sequential Auto-Generated Characters [17.077233047780144]
私たちは、Jailbreakプロンプトを自動設計するフレームワークであるSeqARを紹介します。
GPT-35-11.06 と GPT-4 の安全アライメントを回避し,SeqAR は 88% と 60% の成功率を達成した。
論文 参考訳(メタデータ) (2024-07-02T02:58:29Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Poisoned LangChain: Jailbreak LLMs by LangChain [9.658883589561915]
本稿では,間接的ジェイルブレイクの概念を提案し,LangChain経由でRetrieval-Augmented Generationを実現する。
我々はこの手法を,ジェイルブレイク問題の3つの主要なカテゴリにわたる6つの大言語モデルで検証した。
論文 参考訳(メタデータ) (2024-06-26T07:21:02Z) - Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。
eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。
LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。