論文の概要: Active Honeypot Guardrail System: Probing and Confirming Multi-Turn LLM Jailbreaks
- arxiv url: http://arxiv.org/abs/2510.15017v1
- Date: Thu, 16 Oct 2025 17:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.325155
- Title: Active Honeypot Guardrail System: Probing and Confirming Multi-Turn LLM Jailbreaks
- Title(参考訳): アクティブハニーポットガードレールシステム:マルチターンLDM脱獄の検証と確認
- Authors: ChenYu Wu, Yi Wang, Yang Liao,
- Abstract要約: 大規模言語モデル(LLM)は、マルチターンジェイルブレイク攻撃に対してますます脆弱である。
リスク回避をリスク利用に変換するハニーポット型アクティブガードレールシステムを提案する。
- 参考スコア(独自算出の注目度): 5.366454120356494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly vulnerable to multi-turn jailbreak attacks, where adversaries iteratively elicit harmful behaviors that bypass single-turn safety filters. Existing defenses predominantly rely on passive rejection, which either fails against adaptive attackers or overly restricts benign users. We propose a honeypot-based proactive guardrail system that transforms risk avoidance into risk utilization. Our framework fine-tunes a bait model to generate ambiguous, non-actionable but semantically relevant responses, which serve as lures to probe user intent. Combined with the protected LLM's safe reply, the system inserts proactive bait questions that gradually expose malicious intent through multi-turn interactions. We further introduce the Honeypot Utility Score (HUS), measuring both the attractiveness and feasibility of bait responses, and use a Defense Efficacy Rate (DER) for balancing safety and usability. Initial experiment on MHJ Datasets with recent attack method across GPT-4o show that our system significantly disrupts jailbreak success while preserving benign user experience.
- Abstract(参考訳): 大規模言語モデル(LLM)は、シングルターン安全フィルタをバイパスする有害な行動を反復的に引き起こすマルチターンジェイルブレイク攻撃に対して、ますます脆弱である。
既存の防御は、主に受動的拒否に依存しており、これは適応的な攻撃に対して失敗するか、過度に良心的なユーザーを制限する。
リスク回避をリスク利用に変換するハニーポット型アクティブガードレールシステムを提案する。
我々のフレームワークは、あいまいで、動作不可能で、セマンティックに関連のある応答を生成するために餌モデルを微調整し、ユーザの意図を調査するためのルーレとして機能する。
保護されたLLMの安全な応答と組み合わせて、マルチターンインタラクションを通じて悪意のある意図を徐々に露呈する積極的な餌の質問を挿入する。
さらに,Honeypot Utility Score (HUS)を導入し,ベイト応答の魅力と実現可能性の両方を測定し,安全性とユーザビリティのバランスをとるためにDefense Efficacy Rate (DER)を用いた。
GPT-4oをまたいだ最近の攻撃手法によるMHJデータセットの初期実験により、我々のシステムは、良質なユーザエクスペリエンスを維持しながら、ジェイルブレイクの成功を著しく損なうことが示された。
関連論文リスト
- Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - A Simple and Efficient Jailbreak Method Exploiting LLMs' Helpfulness [32.47621091096285]
安全性アライメントは、LLM(Large Language Models)が有害なクエリに応答することを防ぐことを目的としている。
本稿では,命令的有害な要求を学習スタイルの質問に変換する新しいジェイルブレイク手法であるHILLを紹介する。
幅広いモデルにわたるAdvBenchデータセットの実験は、HILLの強い有効性、一般化可能性、有害性を示している。
論文 参考訳(メタデータ) (2025-09-17T04:21:20Z) - Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。
Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。
実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文 参考訳(メタデータ) (2025-08-16T15:03:33Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [59.300698230887114]
大規模言語モデル(LLM)は、有害な応答を誘発するために敵のプロンプトが設計されたジェイルブレイク攻撃に対して脆弱であることが示されている。
安全制御理論に基づく安全ステアリングフレームワークを提案し,マルチターン対話における不変安全性を保証する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention [14.509085965856643]
我々は,大規模言語モデルをジェイルブレイク攻撃から保護する新しい防御手法であるSafeIntervention(SafeInt)を提案する。
SafeIntのコアアイデアは、Jailbreakに関連する表現を拒絶領域に移動させることです。
6件のJailbreak攻撃、2件のJailbreakデータセット、2件のユーティリティベンチマークに関する包括的な実験を行います。
論文 参考訳(メタデータ) (2025-02-21T17:12:35Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks [7.013820690538764]
本研究は,セーフガード手法のエンファルス陰性を利用した攻撃について検討する。
悪意のある攻撃者は、セキュリティ保護の偽陽性を悪用する可能性もあり、ユーザーに影響を与えるDoS(DoS)が否定された。
論文 参考訳(メタデータ) (2024-10-03T19:07:53Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。