論文の概要: TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking
- arxiv url: http://arxiv.org/abs/2602.06630v1
- Date: Fri, 06 Feb 2026 11:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.383664
- Title: TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking
- Title(参考訳): TrapSuffix: 脱獄の逆境に対する前向きな防御
- Authors: Mengyao Du, Han Fang, Haokai Ma, Gang Yang, Quanjun Yin, Shouling Ji, Ee-Chien Chang,
- Abstract要約: サフィックスベースのジェイルブレイク攻撃は、敵のサフィックス、すなわち短いトークンシーケンスを付加し、LLMを安全でない出力にステアリングする。
提案するTrapSuffixは,推論パイプラインを変更することなく,トラップアラインな動作をベースモデルに注入する,軽量な微調整手法である。
様々なサフィックスベースのジェイルブレイク設定で、TrapSuffixは平均攻撃成功率を0.01%以下に下げ、平均追跡成功率87.9%を達成する。
- 参考スコア(独自算出の注目度): 52.72486831074384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Suffix-based jailbreak attacks append an adversarial suffix, i.e., a short token sequence, to steer aligned LLMs into unsafe outputs. Since suffixes are free-form text, they admit endlessly many surface forms, making jailbreak mitigation difficult. Most existing defenses depend on passive detection of suspicious suffixes, without leveraging the defender's inherent asymmetric ability to inject secrets and proactively conceal gaps. Motivated by this, we take a controllability-oriented perspective and develop a proactive defense that nudges attackers into a no-win dilemma: either they fall into defender-designed optimization traps and fail to produce an effective adversarial suffix, or they can succeed only by generating adversarial suffixes that carry distinctive, traceable fingerprints. We propose TrapSuffix, a lightweight fine-tuning approach that injects trap-aligned behaviors into the base model without changing the inference pipeline. TrapSuffix channels jailbreak attempts into these two outcomes by reshaping the model's response landscape to adversarial suffixes. Across diverse suffix-based jailbreak settings, TrapSuffix reduces the average attack success rate to below 0.01 percent and achieves an average tracing success rate of 87.9 percent, providing both strong defense and reliable traceability. It introduces no inference-time overhead and incurs negligible memory cost, requiring only 15.87 MB of additional memory on average, whereas state-of-the-art LLM-based detection defenses typically incur memory overheads at the 1e4 MB level, while composing naturally with existing filtering-based defenses for complementary protection.
- Abstract(参考訳): サフィックスベースのジェイルブレイク攻撃は、敵のサフィックス、すなわち短いトークンシーケンスを付加し、LLMを安全でない出力にステアリングする。
接尾辞は自由形式のテキストであるため、無期限に多くの表面形態を認め、ジェイルブレイクの緩和を困難にしている。
ほとんどの既存の防御は不審な接尾辞の受動的検出に依存しており、防御者の固有の非対称な能力を利用して秘密を注入し、積極的に隙間を隠蔽する。
これを動機として、我々は制御性を重視した視点で、攻撃者が無敵のジレンマに陥り、防御者が設計した最適化トラップに陥り、効果的な敵の接尾辞を生成できないか、あるいは、特異でトレーサブルな指紋を持つ敵の接尾辞を発生させることで成功するかのどちらかを積極的に防御する。
提案するTrapSuffixは,推論パイプラインを変更することなく,トラップアラインな動作をベースモデルに注入する,軽量な微調整手法である。
TrapSuffixチャンネル ジェイルブレイクは、モデルのレスポンスランドスケープを敵のサフィックスに変換することで、これらの2つの結果に挑戦する。
様々なサフィックスベースのジェイルブレイク設定で、TrapSuffixは平均攻撃成功率を0.01%以下に下げ、平均追跡成功率87.9%を達成し、強力な防御と信頼できるトレーサビリティを提供する。
推論時のオーバーヘッドを導入せず、平均で15.87MBの追加メモリしか必要とせず、一方、最先端のLCMベースの検出ディフェンスは1e4MBレベルでメモリオーバーヘッドを発生させるのに対し、既存のフィルタリングベースのディフェンスは補完的な保護のために自然に構成する。
関連論文リスト
- Proactive defense against LLM Jailbreak [28.249786308207046]
ProActは、自律的な脱獄プロセスを妨害し、誤解を招くように設計された、新しいプロアクティブな防御フレームワークである。
本手法は攻撃成功率を最大92%削減する。
論文 参考訳(メタデータ) (2025-10-06T17:32:40Z) - Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。
Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。
実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文 参考訳(メタデータ) (2025-08-16T15:03:33Z) - Adversarial Suffix Filtering: a Defense Pipeline for LLMs [0.7366405857677227]
敵の接尾辞は現在の最先端のジェイルブレイクであると考えられている。
ASFは入力プリプロセッサおよびサニタイザとして機能し、敵に作られた接尾辞をインプロンプトで検出・フィルタリングする。
我々は、ASFがブラックボックスとホワイトボックスの両方の攻撃設定で包括的な防御機能を提供することを実証した。
論文 参考訳(メタデータ) (2025-05-14T17:52:10Z) - DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification [18.006622965818856]
我々は,LDMのジェイルブレイク攻撃に対する防御能力を向上する,微調整不要な防御手法であるDETAMを紹介する。
具体的には,ジェイルブレイク攻撃に敏感なアテンションヘッドを識別するために,防衛の成功と失敗の間のアテンションスコアの差を分析した。
推論中、攻撃トークンからの干渉を最小限に抑え、ユーザーの中核的な意図を強調するために注意を向ける。
論文 参考訳(メタデータ) (2025-04-18T09:02:12Z) - ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。
試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。
Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-02-16T18:47:41Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。