論文の概要: Reasoning as an Attack Surface: Adaptive Evolutionary CoT Jailbreaks for LLMs
- arxiv url: http://arxiv.org/abs/2605.24497v1
- Date: Sat, 23 May 2026 10:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.135807
- Title: Reasoning as an Attack Surface: Adaptive Evolutionary CoT Jailbreaks for LLMs
- Title(参考訳): 攻撃面としての推論:LLMの適応的進化的CoTジェイルブレイク
- Authors: Jianan Li, Simeng Qin, Xiaojun Jia, Lionel Z. Wang, Tianhang Zheng, Xiaoshuang Jia, Yang Liu, Xiaochun Cao,
- Abstract要約: 大規模推論モデル(LRM)は推論および生成タスクにおいて顕著な機能を示した。
彼らの明確なチェーン・オブ・シント(CoT)メカニズムは、新しいセキュリティリスクをもたらし、特にジェイルブレイク攻撃に対して脆弱である。
AE-CoTと呼ばれる適応的な進化的CoTジェイルブレイクフレームワークを提案し、これらの制限を克服する。
- 参考スコア(独自算出の注目度): 56.53007443197966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in reasoning and generation tasks and are increasingly deployed in real-world applications. However, their explicit chain-of-thought (CoT) mechanism introduces new security risks, making them particularly vulnerable to jailbreak attacks. Existing approaches often rely on static CoT templates to elicit harmful outputs, but such fixed designs suffer from limited diversity, adaptability, and effectiveness. To overcome these limitations, we propose an adaptive evolutionary CoT jailbreak framework, called AE-CoT. Specifically, the method first rewrites harmful goals into mild prompts with teacher role-play and decomposes them into semantically coherent reasoning fragments to construct a pool of CoT jailbreak candidates. Then, within a structured representation space, we perform multi-generation evolutionary search, where candidate diversity is expanded through fragment-level crossover and a mutation strategy with an adaptive mutation-rate control mechanism. An independent scoring model provides graded harmfulness evaluations, and high-scoring candidates are further enhanced with a harmful CoT template to induce more destructive generations. Extensive experiments across multiple models and datasets demonstrate the effectiveness of the proposed AE-CoT, consistently outperforming state-of-the-art jailbreak methods.
- Abstract(参考訳): 大規模推論モデル(LRM)は、推論および生成タスクにおいて顕著な機能を示し、現実のアプリケーションにますますデプロイされている。
しかし、彼らの明確なチェーン・オブ・シンク(CoT)メカニズムは新たなセキュリティリスクをもたらし、特にジェイルブレイク攻撃に対して脆弱である。
既存のアプローチは、有害な出力を引き出すために静的なCoTテンプレートに頼っていることが多いが、そのような固定された設計は、限られた多様性、適応性、有効性に悩まされている。
これらの制約を克服するため,AE-CoTと呼ばれる適応的進化型CoTジェイルブレイクフレームワークを提案する。
具体的には、まず有害な目標を教師の役割プレイで軽微なプロンプトに書き直し、それらを意味的に一貫性のある推論断片に分解し、CoTジェイルブレイク候補のプールを構築する。
そして, 構造的表現空間内で, 多世代進化探索を行い, フラグメントレベルのクロスオーバーと適応突然変異率制御機構を用いた突然変異戦略により, 候補の多様性を拡大する。
独立スコアリングモデルでは、段階的な有害度評価が提供され、有害なCoTテンプレートによりハイスコア候補をさらに強化し、より破壊的な世代を誘導する。
複数のモデルとデータセットにわたる大規模な実験は、提案されたAE-CoTの有効性を実証している。
関連論文リスト
- Silencing the Guardrails: Inference-Time Jailbreaking via Dynamic Contextual Representation Ablation [16.17685258866394]
モデルガードレールを動的に静かにする新しい推論時間介入フレームワーク、Contextual Representation Ablation (CRA)を提案する。
CRAは、高価なパラメータ更新やトレーニングを必要とせずに、デコード中の拒絶誘発活性化パターンを特定し、抑制する。
複数の安全に整合したオープンソース LLM に対する実証的な評価は、CRA がベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-04-09T05:35:56Z) - Co-Evolutionary Multi-Modal Alignment via Structured Adversarial Evolution [8.28457465201508]
我々は、静的な敵の監視を超えて、進化する攻撃と共進化的アライメントを導入する。
本稿では,敵対的プロンプトをメソッドテンプレートや有害な意図に分解する進化的攻撃手法を提案する。
Adaptive Defenderは、合成されたハードネガティブに対して反復的に更新され、進化する攻撃に適応するクローズドループプロセスを形成する。
論文 参考訳(メタデータ) (2026-03-02T12:10:46Z) - ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models [8.765213350762748]
ジェイルブレイク攻撃は 有害な出力を 引き出すためにアライメント・ガードをバイパスする
セマンティック・コヒーレントで高能率な対人プロンプトを生成するための新しいフレームワークであるForgeDANを提案する。
本評価は,従来のSOTAソリューションよりも優れた自然さとステルスを維持しつつ,高い脱獄率を達成することを示す。
論文 参考訳(メタデータ) (2025-11-17T16:19:21Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs [33.470999703070866]
既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。
ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
論文 参考訳(メタデータ) (2025-09-24T05:56:41Z) - DOPA: Stealthy and Generalizable Backdoor Attacks from a Single Client under Challenging Federated Constraints [2.139012072214621]
フェデレーテッド・ラーニング(FL)は、プライバシー保護のための協調トレーニングにますます採用されているが、その分散した性質は、バックドア攻撃の影響を受けやすい。
しかし、既存の攻撃方法は、しばしば理想化された仮定に依存し、現実の制約の下で有効に保たない。
異種ローカルトレーニングのダイナミクスをシミュレートし,多種多様な最適化トラジェクトリ間のコンセンサスを求める新しいフレームワークであるDOPAを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:39:12Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。