論文の概要: Active Honeypot Guardrail System: Probing and Confirming Multi-Turn LLM Jailbreaks
- arxiv url: http://arxiv.org/abs/2510.15017v1
- Date: Thu, 16 Oct 2025 17:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.325155
- Title: Active Honeypot Guardrail System: Probing and Confirming Multi-Turn LLM Jailbreaks
- Title(参考訳): アクティブハニーポットガードレールシステム:マルチターンLDM脱獄の検証と確認
- Authors: ChenYu Wu, Yi Wang, Yang Liao,
- Abstract要約: 大規模言語モデル(LLM)は、マルチターンジェイルブレイク攻撃に対してますます脆弱である。
リスク回避をリスク利用に変換するハニーポット型アクティブガードレールシステムを提案する。
- 参考スコア(独自算出の注目度): 5.366454120356494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly vulnerable to multi-turn jailbreak attacks, where adversaries iteratively elicit harmful behaviors that bypass single-turn safety filters. Existing defenses predominantly rely on passive rejection, which either fails against adaptive attackers or overly restricts benign users. We propose a honeypot-based proactive guardrail system that transforms risk avoidance into risk utilization. Our framework fine-tunes a bait model to generate ambiguous, non-actionable but semantically relevant responses, which serve as lures to probe user intent. Combined with the protected LLM's safe reply, the system inserts proactive bait questions that gradually expose malicious intent through multi-turn interactions. We further introduce the Honeypot Utility Score (HUS), measuring both the attractiveness and feasibility of bait responses, and use a Defense Efficacy Rate (DER) for balancing safety and usability. Initial experiment on MHJ Datasets with recent attack method across GPT-4o show that our system significantly disrupts jailbreak success while preserving benign user experience.
- Abstract(参考訳): 大規模言語モデル(LLM)は、シングルターン安全フィルタをバイパスする有害な行動を反復的に引き起こすマルチターンジェイルブレイク攻撃に対して、ますます脆弱である。
既存の防御は、主に受動的拒否に依存しており、これは適応的な攻撃に対して失敗するか、過度に良心的なユーザーを制限する。
リスク回避をリスク利用に変換するハニーポット型アクティブガードレールシステムを提案する。
我々のフレームワークは、あいまいで、動作不可能で、セマンティックに関連のある応答を生成するために餌モデルを微調整し、ユーザの意図を調査するためのルーレとして機能する。
保護されたLLMの安全な応答と組み合わせて、マルチターンインタラクションを通じて悪意のある意図を徐々に露呈する積極的な餌の質問を挿入する。
さらに,Honeypot Utility Score (HUS)を導入し,ベイト応答の魅力と実現可能性の両方を測定し,安全性とユーザビリティのバランスをとるためにDefense Efficacy Rate (DER)を用いた。
GPT-4oをまたいだ最近の攻撃手法によるMHJデータセットの初期実験により、我々のシステムは、良質なユーザエクスペリエンスを維持しながら、ジェイルブレイクの成功を著しく損なうことが示された。
関連論文リスト
- Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [59.300698230887114]
大規模言語モデル(LLM)は、有害な応答を誘発するために敵のプロンプトが設計されたジェイルブレイク攻撃に対して脆弱であることが示されている。
安全制御理論に基づく安全ステアリングフレームワークを提案し,マルチターン対話における不変安全性を保証する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention [14.509085965856643]
我々は,大規模言語モデルをジェイルブレイク攻撃から保護する新しい防御手法であるSafeIntervention(SafeInt)を提案する。
SafeIntのコアアイデアは、Jailbreakに関連する表現を拒絶領域に移動させることです。
6件のJailbreak攻撃、2件のJailbreakデータセット、2件のユーティリティベンチマークに関する包括的な実験を行います。
論文 参考訳(メタデータ) (2025-02-21T17:12:35Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。