論文の概要: Causal Front-Door Adjustment for Robust Jailbreak Attacks on LLMs
- arxiv url: http://arxiv.org/abs/2602.05444v1
- Date: Thu, 05 Feb 2026 08:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.846825
- Title: Causal Front-Door Adjustment for Robust Jailbreak Attacks on LLMs
- Title(参考訳): LLMにおけるロバスト・ジェイルブレイク攻撃のカウンサルフロントドア調整
- Authors: Yao Zhou, Zeen Song, Wenwen Qiang, Fengge Wu, Shuyi Zhou, Changwen Zheng, Hui Xiong,
- Abstract要約: 我々は、安全メカニズムを因果的観点から、保存されていない共同創設者としてモデル化する。
私たちはPearl's Front-Door Criterionを使って、堅牢なジェイルブレイクの共謀団体を殺害しています。
CFA$2$は、脱獄プロセスの機械的解釈を提供しながら、最先端の攻撃の成功率を達成する。
- 参考スコア(独自算出の注目度): 33.220609516974314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment mechanisms in Large Language Models (LLMs) often operate as latent internal states, obscuring the model's inherent capabilities. Building on this observation, we model the safety mechanism as an unobserved confounder from a causal perspective. Then, we propose the \textbf{C}ausal \textbf{F}ront-Door \textbf{A}djustment \textbf{A}ttack ({\textbf{CFA}}$^2$) to jailbreak LLM, which is a framework that leverages Pearl's Front-Door Criterion to sever the confounding associations for robust jailbreaking. Specifically, we employ Sparse Autoencoders (SAEs) to physically strip defense-related features, isolating the core task intent. We further reduce computationally expensive marginalization to a deterministic intervention with low inference complexity. Experiments demonstrate that {CFA}$^2$ achieves state-of-the-art attack success rates while offering a mechanistic interpretation of the jailbreaking process.
- Abstract(参考訳): LLM(Large Language Models)の安全性アライメント機構は、しばしば潜在内部状態として動作し、モデル固有の能力を無視する。
この観察に基づいて、我々は安全メカニズムを因果的な視点から、観測されていない共同創設者としてモデル化する。
次に、PearlのFront-Door \textbf{F}ront-Door \textbf{A}djustment \textbf{A}ttack ({\textbf{CFA}}$^2$)をJailbreak LLMに提案する。
具体的には、Sparse Autoencoders (SAE) を用いて、防御関連機能を物理的に取り除き、コアタスク意図を分離する。
さらに、計算コストのかかる余分化を、推論複雑性の低い決定論的介入に削減する。
CFA}$^2$は、脱獄プロセスの機械的解釈を提供しながら、最先端の攻撃の成功率を達成することを示す実験である。
関連論文リスト
- JPU: Bridging Jailbreak Defense and Unlearning via On-Policy Path Rectification [18.505062396846565]
大規模言語モデル(LLM)は、しばしばジェイルブレイク攻撃に失敗する。
我々は、安全アンカーへの動的ジェイルブレイクパスの修正のために、$textbfJ$ailbreak $textbfP$ath $textbfU$nlearning (JPU)を提案する。
論文 参考訳(メタデータ) (2026-01-06T13:30:10Z) - CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.06388944779541]
ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。
本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。
本手法は攻撃効率において最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-02-17T02:49:26Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。