論文の概要: MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation
- arxiv url: http://arxiv.org/abs/2510.07835v1
- Date: Thu, 09 Oct 2025 06:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.906991
- Title: MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation
- Title(参考訳): MetaDefense: ファインタニングベースのジェイルブレイク攻撃を、発生前後で防ぐ
- Authors: Weisen Jiang, Sinno Jialin Pan,
- Abstract要約: 本稿では,大規模言語モデル(LLM)におけるファインタニングベースのジェイルブレイク攻撃を防御する新しい枠組みを提案する。
本稿では、応答生成開始前に有害なクエリを検出する前世代防御と、より有害なコンテンツを出力しないように生成中の部分的な応答を監視する中世代防衛という2段階防衛手法を提案する。
我々のMetaDefenseはLSMを訓練し、特定のプロンプトを使ってクエリと部分応答の両方の有害性を予測し、潜在的に有害な相互作用の早期終了を可能にする。
- 参考スコア(独自算出の注目度): 36.35944458936016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MetaDefense, a novel framework for defending against finetuning-based jailbreak attacks in large language models (LLMs). We observe that existing defense mechanisms fail to generalize to harmful queries disguised by unseen attack templates, despite LLMs being capable of distinguishing disguised harmful queries in the embedding space. Based on these insights, we propose a two-stage defense approach: (i) pre-generation defense that detects harmful queries before response generation begins, and (ii) mid-generation defense that monitors partial responses during generation to prevent outputting more harmful content. Our MetaDefense trains the LLM to predict the harmfulness of both queries and partial responses using specialized prompts, enabling early termination of potentially harmful interactions. Extensive experiments across multiple LLM architectures (LLaMA-2-7B, Qwen-2.5-3B-Instruct, and LLaMA-3.2-3B-Instruct) demonstrate that MetaDefense significantly outperforms existing defense mechanisms, achieving robust defense against harmful queries with seen and unseen attack templates while maintaining competitive performance on benign tasks. Code is available at https://github.com/ws-jiang/MetaDefense.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)におけるファインチューニングベースのジェイルブレイク攻撃を防御する新しいフレームワークであるMetaDefenseを紹介する。
既往の防御機構は, 組込み空間において, 疑似有害なクエリを識別できるにもかかわらず, 未知の攻撃テンプレートで偽装された有害なクエリに一般化できないことが観察された。
これらの知見に基づき、我々は二段階防衛アプローチを提案する。
一 応答発生開始前に有害なクエリを検出する前世代防御及び
二 より有害な内容の排出を防止するため、世代内の部分的な反応を監視する中世代防衛。
我々のMetaDefenseはLSMを訓練し、特定のプロンプトを使ってクエリと部分応答の両方の有害性を予測し、潜在的に有害な相互作用の早期終了を可能にする。
複数のLLMアーキテクチャ(LLaMA-2-7B、Qwen-2.5-3B-Instruct、LLaMA-3.2-3B-Instruct)にわたる大規模な実験は、MetaDefenseが既存の防御メカニズムを大幅に上回っており、目に見えるような攻撃テンプレートによる有害なクエリに対する堅牢な防御を達成しつつ、良質なタスクにおける競争性能を維持していることを示した。
コードはhttps://github.com/ws-jiang/MetaDefense.comで入手できる。
関連論文リスト
- FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks [7.31505609352525]
大規模言語モデル(LLM)の防衛は、有害なコンテンツを生成するためにこれらのシステムを利用する多数の攻撃者に対抗するために不可欠である。
モデルロバスト性を高めるために、デコードハイパーパラメータを変更する移動目標防御手法を提案する。
以上の結果から,テストした3つのモデルのうち,我々の防衛は脱獄攻撃に対して最も効果的であることが示された。
論文 参考訳(メタデータ) (2024-12-10T17:02:28Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
主要なjailbreak攻撃に対して,メインストリームのGPT-3.5/4モデルを使用することを実証的に検証した。
防衛の堅牢性をさらに向上し、コストを最小化するために、我々は専用のオープンソース防衛モデルをチューニングするためにデータ蒸留アプローチを採用している。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks [20.5016054418053]
AutoDefenseは、大規模な言語モデルから有害な応答をフィルタリングするマルチエージェントディフェンスフレームワークである。
私たちのフレームワークは、異なるJailbreak攻撃プロンプトに対して堅牢であり、異なる犠牲者モデルを保護するために使用できます。
論文 参考訳(メタデータ) (2024-03-02T16:52:22Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。