論文の概要: Immunity memory-based jailbreak detection: multi-agent adaptive guard for large language models
- arxiv url: http://arxiv.org/abs/2512.03356v1
- Date: Wed, 03 Dec 2025 01:40:40 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:12:30.160331
- Title: Immunity memory-based jailbreak detection: multi-agent adaptive guard for large language models
- Title(参考訳): 免疫メモリを用いたジェイルブレイク検出:大規模言語モデルに対するマルチエージェント適応ガード
- Authors: Jun Leng, Litian Zhang, Xi Zhang,
- Abstract要約: 大規模言語モデル(LLM)はAIシステムの基盤となっているが、敵のジェイルブレイク攻撃に弱いままである。
ジェイルブレイク検出のためのマルチエージェント適応ガード(MAAG)フレームワークを提案する。
MAAGはまず、入力プロンプトからアクティベーション値を抽出し、メモリバンクに格納された履歴アクティベーションと比較して、迅速な予備検出を行う。
- 参考スコア(独自算出の注目度): 12.772312329709868
- License:
- Abstract: Large language models (LLMs) have become foundational in AI systems, yet they remain vulnerable to adversarial jailbreak attacks. These attacks involve carefully crafted prompts that bypass safety guardrails and induce models to produce harmful content. Detecting such malicious input queries is therefore critical for maintaining LLM safety. Existing methods for jailbreak detection typically involve fine-tuning LLMs as static safety LLMs using fixed training datasets. However, these methods incur substantial computational costs when updating model parameters to improve robustness, especially in the face of novel jailbreak attacks. Inspired by immunological memory mechanisms, we propose the Multi-Agent Adaptive Guard (MAAG) framework for jailbreak detection. The core idea is to equip guard with memory capabilities: upon encountering novel jailbreak attacks, the system memorizes attack patterns, enabling it to rapidly and accurately identify similar threats in future encounters. Specifically, MAAG first extracts activation values from input prompts and compares them to historical activations stored in a memory bank for quick preliminary detection. A defense agent then simulates responses based on these detection results, and an auxiliary agent supervises the simulation process to provide secondary filtering of the detection outcomes. Extensive experiments across five open-source models demonstrate that MAAG significantly outperforms state-of-the-art (SOTA) methods, achieving 98% detection accuracy and a 96% F1-score across a diverse range of attack scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)はAIシステムの基盤となっているが、敵のジェイルブレイク攻撃に弱いままである。
これらの攻撃には、安全ガードレールをバイパスし、有害なコンテンツを生産するモデルを誘導する、慎重に作られたプロンプトが含まれる。
したがって、このような悪意のある入力クエリを検出することは、LLMの安全性を維持する上で重要である。
既存のジェイルブレイク検出方法は、固定されたトレーニングデータセットを使用して、静的安全性のLLMとして微調整のLLMを含むのが一般的である。
しかし、これらの手法は、特に新しいジェイルブレイク攻撃に直面した場合、ロバスト性を改善するためにモデルパラメータを更新する際にかなりの計算コストを発生させる。
免疫学的記憶機構に着想を得て,ジェイルブレイク検出のためのマルチエージェント適応ガード(MAAG)フレームワークを提案する。
新たなジェイルブレイク攻撃に遭遇すると、システムは攻撃パターンを記憶し、将来の遭遇における同様の脅威を迅速かつ正確に識別する。
具体的には、まず入力プロンプトからアクティベーション値を抽出し、メモリバンクに格納された履歴アクティベーションと比較して、迅速な予備検出を行う。
次に、防衛エージェントは、これらの検出結果に基づいて応答をシミュレートし、補助エージェントは、シミュレーションプロセスを監督し、検出結果の二次フィルタリングを提供する。
5つのオープンソースモデルにわたる大規模な実験により、MAAGは最先端(SOTA)メソッドを著しく上回り、98%の検出精度と96%のF1スコアをさまざまな攻撃シナリオで達成している。
関連論文リスト
- The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model [25.204224437843365]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクに優れるが、有害なコンテンツを生成する大きなリスクを生じさせる。
ジェイルブレイク攻撃は、モデル内の安全メカニズムを回避し、不適切なコンテンツや安全でないコンテンツを生成する意図的な操作を指す。
JAILDAMと呼ばれるテスト時間適応フレームワークを導入し、これらの問題に対処する。
論文 参考訳(メタデータ) (2025-04-03T05:00:28Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks [34.95274579737075]
JailGuardは、テキストおよび画像モダリティ間のプロンプトベースの攻撃を普遍的に検出するフレームワークである。
攻撃は本来、良心的な攻撃よりも頑丈ではないという原則に基づいて行われる。
テキストと画像の入力で86.14%/82.90%の最高の検出精度を達成し、最先端の手法を11.81%-25.73%、12.20%-21.40%向上させた。
論文 参考訳(メタデータ) (2023-12-17T17:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。