論文の概要: MEF: A Capability-Aware Multi-Encryption Framework for Evaluating Vulnerabilities in Black-Box Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23404v3
- Date: Tue, 08 Jul 2025 03:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 14:27:12.569196
- Title: MEF: A Capability-Aware Multi-Encryption Framework for Evaluating Vulnerabilities in Black-Box Large Language Models
- Title(参考訳): MEF: ブラックボックス大言語モデルにおける脆弱性評価のための機能対応マルチ暗号化フレームワーク
- Authors: Mingyu Yu, Wei Wang, Yanjie Wei, Sujuan Qin, Fei Gao, Wenmin Li,
- Abstract要約: 我々は,ブラックボックスLLMの脆弱性を評価するための機能対応マルチ暗号化フレームワークMEFを提案する。
MEFは層状セマンティック突然変異とデュアルエンド暗号化技術を組み合わせて、入力、推論、出力レベルの防御の回避を可能にする。
注目すべきは、GPT-4oでのジェイルブレイク成功率は98.9%(2025年5月29日リリース)である。
- 参考スコア(独自算出の注目度): 5.645247459469767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in adversarial jailbreak attacks have revealed significant vulnerabilities in Large Language Models (LLMs), facilitating the evasion of alignment safeguards through increasingly sophisticated prompt manipulations. In this paper, we propose MEF, a capability-aware multi-encryption framework for evaluating vulnerabilities in black-box LLMs. Our key insight is that the effectiveness of jailbreak strategies can be significantly enhanced by tailoring them to the semantic comprehension capabilities of the target model. We present a typology that classifies LLMs into Type I and Type II based on their comprehension levels, and design adaptive attack strategies for each. MEF combines layered semantic mutations and dual-ended encryption techniques, enabling circumvention of input, inference, and output-level defenses. Experimental results demonstrate the superiority of our approach. Remarkably, it achieves a jailbreak success rate of 98.9\% on GPT-4o (29 May 2025 release). Our findings reveal vulnerabilities in current LLMs' alignment defenses.
- Abstract(参考訳): 近年、敵の脱獄攻撃の進展により、大規模言語モデル(LLM)の重大な脆弱性が明らかとなり、より高度な迅速な操作によるアライメント保護の回避が促進された。
本稿では,ブラックボックスLLMの脆弱性を評価するための機能対応マルチ暗号化フレームワークMEFを提案する。
我々の重要な洞察は、ターゲットモデルのセマンティック理解能力に合わせて、ジェイルブレイク戦略の有効性を著しく向上させることである。
本稿では,LLMをその理解レベルに基づいてタイプIとタイプIIに分類し,それぞれに適応的な攻撃戦略を設計する。
MEFは層状セマンティック突然変異とデュアルエンド暗号化技術を組み合わせて、入力、推論、出力レベルの防御の回避を可能にする。
実験結果は,我々のアプローチの優位性を示している。
注目すべきは、GPT-4o(2025年5月29日リリース)でのジェイルブレイク成功率は98.9\%に達することである。
以上の結果から,現在のLCMのアライメント防御における脆弱性が判明した。
関連論文リスト
- A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models [6.946931840176725]
この研究は特に、jailbreakの脆弱性の課題に焦点を当てている。
大規模な言語モデルの訓練領域に根ざした新しいジェイルブレイク攻撃の分類を導入している。
論文 参考訳(メタデータ) (2025-04-07T12:05:16Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Lockpicking LLMs: A Logit-Based Jailbreak Using Token-level Manipulation [15.928341917085467]
JailMineは、大規模な言語モデルから悪意ある応答を引き出すために、自動化された"マイニング"プロセスを採用している。
JailMineの有効性と効率を実証し、使用時間の86%の大幅な削減を実現した。
論文 参考訳(メタデータ) (2024-05-20T17:17:55Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks [34.95274579737075]
JailGuardは、テキストおよび画像モダリティ間のプロンプトベースの攻撃を普遍的に検出するフレームワークである。
攻撃は本来、良心的な攻撃よりも頑丈ではないという原則に基づいて行われる。
テキストと画像の入力で86.14%/82.90%の最高の検出精度を達成し、最先端の手法を11.81%-25.73%、12.20%-21.40%向上させた。
論文 参考訳(メタデータ) (2023-12-17T17:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。