論文の概要: Bidirectional Intention Inference Enhances LLMs' Defense Against Multi-Turn Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2509.22732v1
- Date: Thu, 25 Sep 2025 13:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.831027
- Title: Bidirectional Intention Inference Enhances LLMs' Defense Against Multi-Turn Jailbreak Attacks
- Title(参考訳): 双方向意図推論はLLMのマルチターンジェイルブレイク攻撃に対する防御を促進させる
- Authors: Haibo Tong, Dongcheng Zhao, Guobin Shen, Xiang He, Dachuan Lin, Feifei Zhao, Yi Zeng,
- Abstract要約: ジェイルブレイク」攻撃は、安全アライメントメカニズムをバイパスする敵のプロンプトを悪用する。
この課題に対処するために,Bi Intention Inference Defense (BIID)を提案する。
BIIDは、フォワード要求に基づく意図推論と後方応答に基づく意図の振り返りを統合する。
- 参考スコア(独自算出の注目度): 18.3415330691504
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The remarkable capabilities of Large Language Models (LLMs) have raised significant safety concerns, particularly regarding "jailbreak" attacks that exploit adversarial prompts to bypass safety alignment mechanisms. Existing defense research primarily focuses on single-turn attacks, whereas multi-turn jailbreak attacks progressively break through safeguards through by concealing malicious intent and tactical manipulation, ultimately rendering conventional single-turn defenses ineffective. To address this critical challenge, we propose the Bidirectional Intention Inference Defense (BIID). The method integrates forward request-based intention inference with backward response-based intention retrospection, establishing a bidirectional synergy mechanism to detect risks concealed within seemingly benign inputs, thereby constructing a more robust guardrails that effectively prevents harmful content generation. The proposed method undergoes systematic evaluation compared with a no-defense baseline and seven representative defense methods across three LLMs and two safety benchmarks under 10 different attack methods. Experimental results demonstrate that the proposed method significantly reduces the Attack Success Rate (ASR) across both single-turn and multi-turn jailbreak attempts, outperforming all existing baseline methods while effectively maintaining practical utility. Notably, comparative experiments across three multi-turn safety datasets further validate the proposed model's significant advantages over other defense approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な能力は、特に、安全アライメントメカニズムをバイパスする敵のプロンプトを利用する"ジェイルブレイク"攻撃に関して、重大な安全上の懸念を引き起こしている。
既存の防衛研究は、主にシングルターン攻撃に焦点を当てているが、マルチターンジェイルブレイク攻撃は、悪意のある意図と戦術的な操作を隠蔽することで、徐々に安全を突破し、最終的には従来のシングルターン防衛を非効率にする。
この重要な課題に対処するために、双方向意図推論防衛(BIID)を提案する。
本手法は、フォワード要求に基づく意図推論と後方応答に基づく意図の振り返りを統合し、見栄えのよい入力内に隠されたリスクを検出する双方向の相乗効果機構を確立し、有害なコンテンツ生成を効果的に防止するより堅牢なガードレールを構築する。
提案手法は,3つのLLMおよび2つの安全ベンチマークにおいて,無防御ベースラインと7つの代表防御手法とを10種類の異なる攻撃法で比較し,系統評価を行った。
実験結果から,提案手法は単ターンと多ターンのジェイルブレイクにおけるアタック成功率(ASR)を著しく低減し,既存のベースライン手法を全て上回り,実用性を効果的に維持することを示した。
特に、3つのマルチターン安全データセットの比較実験は、提案されたモデルが他の防御アプローチよりも大きな利点があることをさらに検証している。
関連論文リスト
- A Simple and Efficient Jailbreak Method Exploiting LLMs' Helpfulness [32.47621091096285]
安全性アライメントは、LLM(Large Language Models)が有害なクエリに応答することを防ぐことを目的としている。
本稿では,命令的有害な要求を学習スタイルの質問に変換する新しいジェイルブレイク手法であるHILLを紹介する。
幅広いモデルにわたるAdvBenchデータセットの実験は、HILLの強い有効性、一般化可能性、有害性を示している。
論文 参考訳(メタデータ) (2025-09-17T04:21:20Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - DualBreach: Efficient Dual-Jailbreaking via Target-Driven Initialization and Multi-Target Optimization [15.197413326187936]
本稿では,デュアルジェイルブレークのためのターゲット駆動型フレームワークであるDualBreachを提案する。
ブラックボックスガードレールでは、DualBreachは強力なオープンソースガードレールを使用するか、プロキシモデルをトレーニングすることでターゲットのブラックボックスガードレールを模倣する。
広範に使用されているデータセットを広範囲に評価することにより,デュアルジェイルブレークシナリオにおけるDualBreachの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-21T11:30:30Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - How Jailbreak Defenses Work and Ensemble? A Mechanistic Investigation [39.44000290664494]
ジェイルブレイク攻撃は、生成モデルのビルトインセーフをバイパスする有害なプロンプトであり、モデルの脆弱性に対する深刻な懸念を引き起こす。
本稿では,標準生成タスクをバイナリ分類問題として再検討することにより,ジェイルブレイク防御を体系的に検討する。
我々は,全てのクエリに対する拒絶率を増加させる安全性シフトと,有害な入力と良質な入力を区別するモデルの能力を向上させる有害性判別という2つの主要な防御メカニズムを同定する。
論文 参考訳(メタデータ) (2025-02-20T12:07:40Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [23.793583584784685]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全対策を回避し、有害または不適切な出力を誘発するジェイルブレイク攻撃の影響を受ける。
LATPC(Latent-space Adrial Training with Post-aware framework)を紹介する。
LATPCは有害な入力と良性入力を対比することにより安全性に重要な潜伏次元を同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。