論文の概要: xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking
- arxiv url: http://arxiv.org/abs/2501.16727v1
- Date: Tue, 28 Jan 2025 06:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:47.067603
- Title: xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking
- Title(参考訳): xJailbreak: 解釈可能なLLM脱獄のための表現空間ガイド強化学習
- Authors: Sunbowen Lee, Shiwen Ni, Chi Wei, Shuaimin Li, Liyang Fan, Ahmadreza Argha, Hamid Alinejad-Rokny, Ruifeng Xu, Yicheng Gong, Min Yang,
- Abstract要約: ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
- 参考スコア(独自算出の注目度): 32.89084809038529
- License:
- Abstract: Safety alignment mechanism are essential for preventing large language models (LLMs) from generating harmful information or unethical content. However, cleverly crafted prompts can bypass these safety measures without accessing the model's internal parameters, a phenomenon known as black-box jailbreak. Existing heuristic black-box attack methods, such as genetic algorithms, suffer from limited effectiveness due to their inherent randomness, while recent reinforcement learning (RL) based methods often lack robust and informative reward signals. To address these challenges, we propose a novel black-box jailbreak method leveraging RL, which optimizes prompt generation by analyzing the embedding proximity between benign and malicious prompts. This approach ensures that the rewritten prompts closely align with the intent of the original prompts while enhancing the attack's effectiveness. Furthermore, we introduce a comprehensive jailbreak evaluation framework incorporating keywords, intent matching, and answer validation to provide a more rigorous and holistic assessment of jailbreak success. Experimental results show the superiority of our approach, achieving state-of-the-art (SOTA) performance on several prominent open and closed-source LLMs, including Qwen2.5-7B-Instruct, Llama3.1-8B-Instruct, and GPT-4o-0806. Our method sets a new benchmark in jailbreak attack effectiveness, highlighting potential vulnerabilities in LLMs. The codebase for this work is available at https://github.com/Aegis1863/xJailbreak.
- Abstract(参考訳): 安全アライメントメカニズムは、大きな言語モデル(LLM)が有害な情報や非倫理的コンテンツを生成するのを防ぐために不可欠である。
しかし、巧妙に製作されたプロンプトは、ブラックボックスジェイルブレイクとして知られるモデルの内部パラメータにアクセスすることなく、これらの安全対策を回避できる。
遺伝的アルゴリズムのような既存のヒューリスティックなブラックボックス攻撃法は、その固有のランダム性によって限られた有効性に悩まされる一方、最近の強化学習(RL)に基づく手法では、堅牢で有益な報酬信号が欠如していることが多い。
これらの課題に対処するため、我々は、悪質なプロンプトと悪質なプロンプトの埋め込みを解析し、プロンプト生成を最適化する新しいブラックボックスジェイルブレイク手法を提案する。
このアプローチは、リライトプロンプトが元のプロンプトの意図と密接に一致することを保証すると同時に、攻撃の有効性を高める。
さらに,キーワード,意図マッチング,回答検証を取り入れた総合的ジェイルブレイク評価フレームワークを導入し,ジェイルブレイク成功のより厳密で包括的な評価を行う。
実験結果から,Qwen2.5-7B-Instruct,Llama3.1-8B-Instruct,GPT-4o-0806など,オープンでクローズドなLLM上でのSOTA(State-of-the-art)の性能向上が得られた。
本手法は, LLMの潜在的な脆弱性を浮き彫りにして, ジェイルブレイク攻撃の有効性を新たなベンチマークで評価する。
この作業のコードベースはhttps://github.com/Aegis1863/xJailbreakで公開されている。
関連論文リスト
- SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
本稿では, LLMの外部特性, 特に入力プロンプトの作り方に着目した新しいjailbreak手法を提案する。
SIJ法は,AdvBench上の5つの有名なオープンLLMに対する攻撃成功率を100%近く達成すると同時に,従来の方法と比較して時間コストの低減を実現している。
そこで本研究では,SIJ に対する対策として SelfReminderKey という簡単な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Transferable Ensemble Black-box Jailbreak Attacks on Large Language Models [0.0]
我々は,様々なLSM-as-Attackerメソッドを組み込んだ新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
本手法は,既存のジェイルブレイク研究と実践から得られた3つの重要な知見に基づいて設計されている。
論文 参考訳(メタデータ) (2024-10-31T01:55:33Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs [14.1985036536366]
深部強化学習(DRL)を利用した新しいブラックボックスジェイルブレイク攻撃であるRL-JACKを提案する。
本手法は, ジェイルブレイク時のRLエージェントの学習効率を向上させるために, 一連のカスタマイズされた設計を含む。
RL-JACKは6台のSOTA LLMに対する既存のジェイルブレイク攻撃よりもはるかに効果的であることを示す。
論文 参考訳(メタデータ) (2024-06-13T01:05:22Z) - Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文 参考訳(メタデータ) (2023-12-07T08:29:58Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models [11.517609196300217]
FuzzLLMは,大規模言語モデル(LLM)におけるジェイルブレイク脆弱性を積極的にテストし,発見するために設計された,自動ファジリングフレームワークである。
テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。
異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。
論文 参考訳(メタデータ) (2023-09-11T07:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。