論文の概要: HoneyTrap: Deceiving Large Language Model Attackers to Honeypot Traps with Resilient Multi-Agent Defense
- arxiv url: http://arxiv.org/abs/2601.04034v1
- Date: Wed, 07 Jan 2026 15:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.213062
- Title: HoneyTrap: Deceiving Large Language Model Attackers to Honeypot Traps with Resilient Multi-Agent Defense
- Title(参考訳): HoneyTrap: レジリエントなマルチエージェント防御を備えた大規模言語モデルアタッカーのHoneypotトラップへの移行
- Authors: Siyuan Li, Xi Lin, Jun Wu, Zehao Liu, Haoyu Li, Tianjie Ju, Xiang Chen, Jianhua Li,
- Abstract要約: HoneyTrapは、新しい欺く言語モデル防御フレームワークである。
4つの防御エージェント、Threat Interceptor、Misdirection Controller、Forensic Tracker、System Harmonizerを統合している。
HoneyTrapは、最先端のベースラインと比べて平均68.77%の攻撃成功率を達成している。
- 参考スコア(独自算出の注目度): 30.85543511046959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreak attacks pose significant threats to large language models (LLMs), enabling attackers to bypass safeguards. However, existing reactive defense approaches struggle to keep up with the rapidly evolving multi-turn jailbreaks, where attackers continuously deepen their attacks to exploit vulnerabilities. To address this critical challenge, we propose HoneyTrap, a novel deceptive LLM defense framework leveraging collaborative defenders to counter jailbreak attacks. It integrates four defensive agents, Threat Interceptor, Misdirection Controller, Forensic Tracker, and System Harmonizer, each performing a specialized security role and collaborating to complete a deceptive defense. To ensure a comprehensive evaluation, we introduce MTJ-Pro, a challenging multi-turn progressive jailbreak dataset that combines seven advanced jailbreak strategies designed to gradually deepen attack strategies across multi-turn attacks. Besides, we present two novel metrics: Mislead Success Rate (MSR) and Attack Resource Consumption (ARC), which provide more nuanced assessments of deceptive defense beyond conventional measures. Experimental results on GPT-4, GPT-3.5-turbo, Gemini-1.5-pro, and LLaMa-3.1 demonstrate that HoneyTrap achieves an average reduction of 68.77% in attack success rates compared to state-of-the-art baselines. Notably, even in a dedicated adaptive attacker setting with intensified conditions, HoneyTrap remains resilient, leveraging deceptive engagement to prolong interactions, significantly increasing the time and computational costs required for successful exploitation. Unlike simple rejection, HoneyTrap strategically wastes attacker resources without impacting benign queries, improving MSR and ARC by 118.11% and 149.16%, respectively.
- Abstract(参考訳): 脱獄攻撃は大規模言語モデル(LLM)に重大な脅威となり、攻撃者は保護を回避できる。
しかし、既存のリアクティブディフェンスアプローチは、攻撃者が脆弱性を悪用するために攻撃を継続的に深める、急速に進化するマルチターンジェイルブレイクに追いつくのに苦労している。
この重要な課題に対処するため、我々は、共同守備員によるジェイルブレイク攻撃の防止に活用する、新しい偽装LDM防御フレームワークであるHoneyTrapを提案する。
Threat Interceptor(英語版)、Misdirection Controller(英語版)、Forensic Tracker(英語版)、System Harmonizer(英語版)の4つの防衛エージェントを統合する。
包括的評価を保証するため,MTJ-Proを導入した。これは,マルチターン攻撃における攻撃戦略を徐々に深めるように設計された,先進的な7つのジェイルブレイク戦略を組み合わせた,挑戦的なマルチターンプログレッシブ・ジェイルブレイクデータセットである。
また,従来の対策を超越して,よりきめ細やかな偽りの防御評価を提供する,ミスリード成功率(MSR)と攻撃資源消費(ARC)の2つの新しい指標を提示する。
GPT-4、GPT-3.5-turbo、Gemini-1.5-pro、LLaMa-3.1の実験結果は、HoneyTrapが最先端のベースラインと比較して平均68.77%の攻撃成功率を達成していることを示している。
特に、強化された条件で専用のアダプティブアタッカーの設定であっても、HoneyTrapは引き続き回復力があり、長期にわたる相互作用に騙されるエンゲージメントを活用し、攻撃を成功させるのに必要な時間と計算コストを大幅に増加させる。
単純な拒絶とは異なり、HoneyTrapは攻撃者のリソースをベニグアクエリに影響を与えずに戦略的に無駄にし、MSRとARCをそれぞれ118.11%改善し、129.16%改善した。
関連論文リスト
- Proactive defense against LLM Jailbreak [28.249786308207046]
ProActは、自律的な脱獄プロセスを妨害し、誤解を招くように設計された、新しいプロアクティブな防御フレームワークである。
本手法は攻撃成功率を最大92%削減する。
論文 参考訳(メタデータ) (2025-10-06T17:32:40Z) - Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文 参考訳(メタデータ) (2025-06-27T07:26:33Z) - TrojanTO: Action-Level Backdoor Attacks against Trajectory Optimization Models [67.06525001375722]
TrojanTOはTOモデルに対する最初のアクションレベルのバックドア攻撃である。
様々なタスクにバックドア攻撃を移植し、低い攻撃予算で目標を攻撃する。
TrojanTOはDT、GDT、DCに広く適用可能である。
論文 参考訳(メタデータ) (2025-06-15T11:27:49Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
主要なjailbreak攻撃に対して,メインストリームのGPT-3.5/4モデルを使用することを実証的に検証した。
防衛の堅牢性をさらに向上し、コストを最小化するために、我々は専用のオープンソース防衛モデルをチューニングするためにデータ蒸留アプローチを採用している。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。
本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。
GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文 参考訳(メタデータ) (2024-01-30T18:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。