論文の概要: A Causal Perspective for Enhancing Jailbreak Attack and Defense
- arxiv url: http://arxiv.org/abs/2602.04893v1
- Date: Sat, 31 Jan 2026 15:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.511303
- Title: A Causal Perspective for Enhancing Jailbreak Attack and Defense
- Title(参考訳): 脱獄・防衛の強化に向けた因果的展望
- Authors: Licheng Pan, Yunsheng Lu, Jiexi Liu, Jialing Tao, Haozhe Feng, Hui Xue, Zhixuan Chu, Kui Ren,
- Abstract要約: 大規模言語モデルとデータ駆動因果探索を融合したフレームワークを提案する。
7つの言語モデルにまたがる35kのジェイルブレイク試行からなる包括的データセットを導入する。
分析の結果、"Positive Character"や"Number of Task Steps"といった特定の特徴が、jailbreakの直接的な因果的ドライバとして機能していることが判明した。
- 参考スコア(独自算出の注目度): 29.669194815878768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncovering the mechanisms behind "jailbreaks" in large language models (LLMs) is crucial for enhancing their safety and reliability, yet these mechanisms remain poorly understood. Existing studies predominantly analyze jailbreak prompts by probing latent representations, often overlooking the causal relationships between interpretable prompt features and jailbreak occurrences. In this work, we propose Causal Analyst, a framework that integrates LLMs into data-driven causal discovery to identify the direct causes of jailbreaks and leverage them for both attack and defense. We introduce a comprehensive dataset comprising 35k jailbreak attempts across seven LLMs, systematically constructed from 100 attack templates and 50 harmful queries, annotated with 37 meticulously designed human-readable prompt features. By jointly training LLM-based prompt encoding and GNN-based causal graph learning, we reconstruct causal pathways linking prompt features to jailbreak responses. Our analysis reveals that specific features, such as "Positive Character" and "Number of Task Steps", act as direct causal drivers of jailbreaks. We demonstrate the practical utility of these insights through two applications: (1) a Jailbreaking Enhancer that targets identified causal features to significantly boost attack success rates on public benchmarks, and (2) a Guardrail Advisor that utilizes the learned causal graph to extract true malicious intent from obfuscated queries. Extensive experiments, including baseline comparisons and causal structure validation, confirm the robustness of our causal analysis and its superiority over non-causal approaches. Our results suggest that analyzing jailbreak features from a causal perspective is an effective and interpretable approach for improving LLM reliability. Our code is available at https://github.com/Master-PLC/Causal-Analyst.
- Abstract(参考訳): 大規模言語モデル(LLM)における"jailbreaks"のメカニズムを明らかにすることは、安全性と信頼性を高める上で重要であるが、これらのメカニズムは理解されていない。
既存の研究では、しばしば解釈可能なプロンプトの特徴とジェイルブレイクの発生の間の因果関係を見落とし、潜伏表現を探索することでジェイルブレイクプロンプトを主に分析している。
本研究では,LLMをデータ駆動因果発見に統合し,jailbreakの直接的な原因を特定し,攻撃と防御の両方に利用するためのフレームワークであるCausal Analystを提案する。
攻撃テンプレート100件と有害なクエリ50件を体系的に構築し,37件の厳密に設計された人間可読性プロンプトを付加した,7つのLDMを対象とした35kのジェイルブレイク試行からなる包括的データセットを提案する。
LLMベースのプロンプトエンコーディングとGNNベースの因果グラフ学習を併用して、プロンプト特徴とジェイルブレイク応答をリンクする因果経路を再構築する。
分析の結果、"Positive Character"や"Number of Task Steps"といった特定の特徴が、jailbreakの直接的な因果的ドライバとして機能していることが判明した。
本研究は,(1)公衆ベンチマークにおける攻撃成功率を著しく向上する因果的特徴を標的としたジェイルブレーキング・エンハンサー,(2)学習した因果的グラフを用いて難解なクエリから真に悪意のある意図を抽出するガードレール・アドバイザの2つの応用を通して,これらの知見の実用性を実証する。
ベースライン比較や因果構造検証を含む広範囲な実験により、因果解析の堅牢性と非因果的アプローチに対するその優位性が確認された。
以上の結果から, ジェイルブレイクの特徴を因果的観点から分析することは, LLMの信頼性向上に有効かつ解釈可能なアプローチであることが示唆された。
私たちのコードはhttps://github.com/Master-PLC/Causal-Analyst.comから入手可能です。
関連論文リスト
- The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - BreakFun: Jailbreaking LLMs via Schema Exploitation [0.28647133890966986]
我々は,Large Language Models (LLM) がいかにして重大な弱点となるかを検討する。
この脆弱性は転送可能であり、13モデルの平均成功率は89%に達する。
二次 LLM は、ユーザの真の有害な意図を分離し、明らかにするために "Literal Transcription" を実行する。
論文 参考訳(メタデータ) (2025-10-19T11:27:44Z) - Machine Learning for Detection and Analysis of Novel LLM Jailbreaks [3.2654923574107357]
大きな言語モデル(LLM)は、悪意のあるユーザが入力テキストの操作を通じて望ましくない応答を要求できるような、さまざまな脆弱性に悩まされる。
いわゆるジェイルブレイクプロンプトは、LLMを騙して安全ガードレールの設置を回避し、開発者のポリシーに受け入れられる応答を維持するように設計されている。
本研究では,異なる機械学習モデルを用いて,jailbreakプロンプトを真の用途と区別する能力について分析する。
論文 参考訳(メタデータ) (2025-10-02T03:55:29Z) - LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。
ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。
本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文 参考訳(メタデータ) (2025-09-18T02:42:52Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [6.392966062933521]
本研究では,35種類の攻撃方法にまたがる10,800件のジェイルブレイク試行からなる新しいデータセットを提案する。
我々は、脱獄の成功を予測するために、オープンウェイトLLMの隠れ状態に関する線形および非線形プローブを訓練する。
因果関係を確立するために、予測方向のコンプライアンスを体系的にシフトするプローブ誘導潜時介入を構築した。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - A StrongREJECT for Empty Jailbreaks [72.8807309802266]
StrongREJECTは、ジェイルブレイクのパフォーマンスを評価するための高品質なベンチマークである。
これは、被害者モデルが禁止されたプロンプトに対する応答の有害性を評価する。
それは、ジェイルブレイクの有効性の人間の判断と最先端の合意を達成します。
論文 参考訳(メタデータ) (2024-02-15T18:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。