論文の概要: Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion
- arxiv url: http://arxiv.org/abs/2505.14316v1
- Date: Tue, 20 May 2025 13:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.239951
- Title: Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion
- Title(参考訳): インテント封入とディバージョンによるLDMのジェイルブレイク攻撃の探索
- Authors: Tiehan Cui, Yanxu Mao, Peipei Liu, Congying Liu, Datao You,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい進歩を遂げているが、そのセキュリティは依然として懸念されている。
主要な脅威の1つはジェイルブレイク攻撃であり、敵はモデル保護をバイパスして有害または好ましくないコンテンツを生成する。
Intent ConcealmentとdivErsionを用いてセキュリティ制約を効果的に回避する新しいブラックボックスジェイルブレイク手法ICEを提案する。
- 参考スコア(独自算出の注目度): 1.0291559330120414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) have achieved remarkable advancements, their security remains a pressing concern. One major threat is jailbreak attacks, where adversarial prompts bypass model safeguards to generate harmful or objectionable content. Researchers study jailbreak attacks to understand security and robustness of LLMs. However, existing jailbreak attack methods face two main challenges: (1) an excessive number of iterative queries, and (2) poor generalization across models. In addition, recent jailbreak evaluation datasets focus primarily on question-answering scenarios, lacking attention to text generation tasks that require accurate regeneration of toxic content. To tackle these challenges, we propose two contributions: (1) ICE, a novel black-box jailbreak method that employs Intent Concealment and divErsion to effectively circumvent security constraints. ICE achieves high attack success rates (ASR) with a single query, significantly improving efficiency and transferability across different models. (2) BiSceneEval, a comprehensive dataset designed for assessing LLM robustness in question-answering and text-generation tasks. Experimental results demonstrate that ICE outperforms existing jailbreak techniques, revealing critical vulnerabilities in current defense mechanisms. Our findings underscore the necessity of a hybrid security strategy that integrates predefined security mechanisms with real-time semantic decomposition to enhance the security of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい進歩を遂げているが、そのセキュリティは依然として懸念されている。
主要な脅威の1つはジェイルブレイク攻撃であり、敵はモデル保護をバイパスして有害または好ましくないコンテンツを生成する。
研究者はLLMのセキュリティと堅牢性を理解するためにジェイルブレイク攻撃を研究する。
しかし,既存のjailbreak攻撃手法では,(1)過剰な反復クエリ数,(2)モデル間の一般化が不十分な2つの大きな課題に直面している。
さらに、最近のジェイルブレイク評価データセットは、主に質問応答のシナリオに焦点を当てており、有毒なコンテンツの正確な再生を必要とするテキスト生成タスクに注意を払っていない。
これらの課題に対処するために,(1)Intent Concealmentを用いた新しいブラックボックスジェイルブレイク法であるICEと,セキュリティ制約を効果的に回避するためのdivErsionの2つのコントリビューションを提案する。
ICEは単一のクエリで高い攻撃成功率(ASR)を達成する。
2)BiSceneEvalは,質問応答およびテキスト生成タスクにおけるLCMの堅牢性を評価するために設計された包括的データセットである。
実験の結果、ICEは既存のジェイルブレイク技術よりも優れており、現在の防御機構の重大な脆弱性が明らかになっている。
本研究は,LLMの安全性を高めるために,事前定義されたセキュリティ機構とリアルタイムセマンティック分解を統合したハイブリッドセキュリティ戦略の必要性を明らかにするものである。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。