論文の概要: Chain-of-Thought Hijacking
- arxiv url: http://arxiv.org/abs/2510.26418v1
- Date: Thu, 30 Oct 2025 12:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.800909
- Title: Chain-of-Thought Hijacking
- Title(参考訳): Chain-of-Thought ハイジャック
- Authors: Jianli Zhao, Tingchen Fu, Rylan Schaeffer, Mrinank Sharma, Fazl Barez,
- Abstract要約: 推論モデルに対するジェイルブレイク攻撃であるChain-of-Thought Hijackingを紹介した。
この攻撃は、無害パズル推論の長いシーケンスで有害な要求をパッドする。
HarmBench全体では、CoT Hijackingは99%、94%、100%、94%の攻撃成功率に達した。
- 参考スコア(独自算出の注目度): 26.527942827274057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) achieve higher task performance by allocating more inference-time compute, and prior works suggest this scaled reasoning may also strengthen safety by improving refusal. Yet we find the opposite: the same reasoning can be used to bypass safeguards. We introduce Chain-of-Thought Hijacking, a jailbreak attack on reasoning models. The attack pads harmful requests with long sequences of harmless puzzle reasoning. Across HarmBench, CoT Hijacking reaches a 99%, 94%, 100%, and 94% attack success rate (ASR) on Gemini 2.5 Pro, GPT o4 mini, Grok 3 mini, and Claude 4 Sonnet, respectively - far exceeding prior jailbreak methods for LRMs. To understand the effectiveness of our attack, we turn to a mechanistic analysis, which shows that mid layers encode the strength of safety checking, while late layers encode the verification outcome. Long benign CoT dilutes both signals by shifting attention away from harmful tokens. Targeted ablations of attention heads identified by this analysis causally decrease refusal, confirming their role in a safety subnetwork. These results show that the most interpretable form of reasoning - explicit CoT - can itself become a jailbreak vector when combined with final-answer cues. We release prompts, outputs, and judge decisions to facilitate replication.
- Abstract(参考訳): 大規模推論モデル(LRM)は、より推論時間の計算を割り当てることで高いタスク性能を達成する。
しかし、私たちは反対の理由を見つけます。同じ推論を使って安全を回避できます。
推論モデルに対するジェイルブレイク攻撃であるChain-of-Thought Hijackingを紹介した。
この攻撃は、無害パズル推論の長いシーケンスで有害な要求をパッドする。
HarmBenchの他、CoT HijackingはGemini 2.5 Pro、GPT o4 mini、Grok 3 mini、Claude 4 Sonnetで99%、94%、100%、94%の攻撃成功率(ASR)に達した。
攻撃の有効性を理解するため,中間層が安全性検査の強度を,後半層が検証結果を符号化する機構解析を行った。
長い良性CoTは有害なトークンから注意を移すことで両方の信号を希釈する。
この分析によって同定された注意点の目的は、拒絶を因果的に減少させ、安全サブネットワークにおける彼らの役割を確認することである。
これらの結果は、最も解釈可能な推論形式である明示的なCoTが、ファイナル・アンサー・キューと組み合わせることで、それ自体がジェイルブレイクベクターになることを示している。
レプリケーションを容易にするプロンプト、アウトプット、および判断決定をリリースします。
関連論文リスト
- Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos [11.251363342476491]
Large Reasoning Models (LRM) は従来のLarge Language Models (LLM) よりも大幅に進歩している。
LRMを標的とした最初のジェイルブレイク攻撃を提案する。
具体的には、多様な1対1マッピングで攻撃プロンプトを変換する新しいコンポーネントであるChaos Machineを紹介する。
論文 参考訳(メタデータ) (2025-02-19T07:23:36Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。