論文の概要: The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs
- arxiv url: http://arxiv.org/abs/2603.08234v1
- Date: Mon, 09 Mar 2026 11:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.821146
- Title: The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs
- Title(参考訳): 継続と拒絶の相互作用:LLMにおける連続トリガージェイルブレイクの力学解析
- Authors: Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li,
- Abstract要約: 本研究では,連続トラガードジェイルブレイク現象の本態的なメカニズムについて検討した。
このジェイルブレイク動作は、モデル固有の継続ドライブとアライメントトレーニングによって獲得した安全防御との固有の競合から生じるものであることを示す。
- 参考スコア(独自算出の注目度): 13.727578652091529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of large language models (LLMs), the safety of LLMs has become a critical concern. Despite significant efforts in safety alignment, current LLMs remain vulnerable to jailbreaking attacks. However, the root causes of such vulnerabilities are still poorly understood, necessitating a rigorous investigation into jailbreak mechanisms across both academic and industrial communities. In this work, we focus on a continuation-triggered jailbreak phenomenon, whereby simply relocating a continuation-triggered instruction suffix can substantially increase jailbreak success rates. To uncover the intrinsic mechanisms of this phenomenon, we conduct a comprehensive mechanistic interpretability analysis at the level of attention heads. Through causal interventions and activation scaling, we show that this jailbreak behavior primarily arises from an inherent competition between the model's intrinsic continuation drive and the safety defenses acquired through alignment training. Furthermore, we perform a detailed behavioral analysis of the identified safety-critical attention heads, revealing notable differences in the functions and behaviors of safety heads across different model architectures. These findings provide a novel mechanistic perspective for understanding and interpreting jailbreak behaviors in LLMs, offering both theoretical insights and practical implications for improving model safety.
- Abstract(参考訳): 大規模言語モデル (LLM) の急速な進歩により, LLM の安全性が重要な問題となっている。
安全確保に多大な努力を払っているにもかかわらず、現在のLLMは脱獄攻撃に弱いままである。
しかし、そのような脆弱性の根本原因はまだよく理解されておらず、学術と工業の両方のコミュニティでジェイルブレイクのメカニズムを厳格に調査する必要がある。
本研究は、継続トリガード・ジェイルブレイク現象に着目し、継続トリガード・インストラクション・サフィックスを単に移動するだけで、ジェイルブレイクの成功率を大幅に向上させることができる。
この現象の本質的なメカニズムを明らかにするために,本研究では,注意点レベルでの包括的な機械的解釈可能性解析を行う。
因果的介入とアクティベーションスケーリングを通じて、このジェイルブレイクの挙動は、モデル固有の継続駆動とアライメントトレーニングによって獲得した安全防衛との固有の競合から主に生じることを示す。
さらに、同定された安全クリティカルなアテンションヘッドの詳細な行動解析を行い、異なるモデルアーキテクチャにおける安全ヘッドの機能と挙動に顕著な差異を明らかにした。
これらの知見は, LLMにおけるジェイルブレイク行動の理解と解釈に新しい力学的視点を与え, モデル安全性向上のための理論的洞察と実践的意味の両方を提供する。
関連論文リスト
- Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。
隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。
以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文 参考訳(メタデータ) (2026-02-12T02:43:17Z) - NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models [68.09675063543402]
NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。
レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。
本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
論文 参考訳(メタデータ) (2025-09-04T08:12:06Z) - Attention Slipping: A Mechanistic Understanding of Jailbreak Attacks and Defenses in LLMs [61.916827858666906]
私たちは、脱獄攻撃中に起こる普遍的な現象を明らかにします。
Attention Slippingは、勾配ベースのトークン置換、プロンプトレベルのテンプレートリファインメント、コンテキスト内学習など、さまざまなジェイルブレイクメソッドに一貫性があることを示します。
本研究では,温度スケーリングによる注意スコア分布の鮮明化により,注意スライッピングと直接対向する新たな防御法である注意シャープニングを提案する。
論文 参考訳(メタデータ) (2025-07-06T12:19:04Z) - Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval [25.17143802138141]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱であり、敵は危険または非倫理的な反応を引き起こすために慎重に設計されたプロンプトを悪用する。
安全コンテキスト検索(SCR, Safety Context Retrieval)は,LLMの脱獄防止のためのスケーラブルで堅牢な安全保護パラダイムである。
論文 参考訳(メタデータ) (2025-05-21T16:58:14Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models [6.946931840176725]
この研究は特に、jailbreakの脆弱性の課題に焦点を当てている。
大規模な言語モデルの訓練領域に根ざした新しいジェイルブレイク攻撃の分類を導入している。
論文 参考訳(メタデータ) (2025-04-07T12:05:16Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [12.392258585661446]
大規模言語モデル(LLM)はジェイルブレイク攻撃に対して脆弱であり、敵のプロンプトはセキュリティメカニズムをバイパスし、予期せぬ応答を誘発する。
本稿では,Jailbreak機構を表現と回路の両方の観点から解析する解釈フレームワークであるJailbreakLensを提案する。
論文 参考訳(メタデータ) (2024-11-17T16:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。