論文の概要: Unreal Thinking: Chain-of-Thought Hijacking via Two-stage Backdoor
- arxiv url: http://arxiv.org/abs/2604.09235v1
- Date: Fri, 10 Apr 2026 11:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.841781
- Title: Unreal Thinking: Chain-of-Thought Hijacking via Two-stage Backdoor
- Title(参考訳): 非現実的思考:2段階のバックドアでチェーン・オブ・サードをハイジャック
- Authors: Wenhan Chang, Tianqing Zhu, Ping Xiong, Faqian Guan, Wanlei Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、Chain-of-Thought(CoT)がユーザによって解釈されるように、ますます多くデプロイされている。
攻撃者はモデルの観測可能なCoTを操作して悪意ある振る舞いをすることができる。
実際には、永続的なCoTハイジャックは3つの大きな課題に直面している。
- 参考スコア(独自算出の注目度): 19.938570872083652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in settings where Chain-of-Thought (CoT) is interpreted by users. This creates a new safety risk: attackers may manipulate the model's observable CoT to make malicious behaviors. In open-weight ecosystems, such manipulation can be embedded in lightweight adapters that are easy to distribute and attach to base models. In practice, persistent CoT hijacking faces three main challenges: the difficulty of directly hijacking CoT tokens within one continuous long CoT-output sequence while maintaining stable downstream outputs, the scarcity of malicious CoT data, and the instability of naive backdoor injection methods. To address the data scarcity issue, we propose Multiple Reverse Tree Search (MRTS), a reverse synthesis procedure that constructs output-aligned CoTs from prompt-output pairs without directly eliciting malicious CoTs from aligned models. Building on MRTS, we introduce Two-stage Backdoor Hijacking (TSBH), which first induces a trigger-conditioned mismatch between intermediate CoT and malicious outputs, and then fine-tunes the model on MRTS-generated CoTs that have lower embedding distance to the malicious outputs, thereby ensuring stronger semantic similarity. Experiments across multiple open-weight models demonstrate that our method successfully induces trigger-activated CoT hijacking while maintaining a quantifiable distinction between hijacked and baseline states under our evaluation framework. We further explore a reasoning-based mitigation approach and release a safety-reasoning dataset to support future research on safety-aware and reliable reasoning. Our code is available at https://github.com/ChangWenhan/TSBH_official.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Chain-of-Thought(CoT)がユーザによって解釈されるように、ますます多くデプロイされている。
攻撃者はモデルの観測可能なCoTを操作して悪意ある振る舞いをすることができる。
オープンウェイトなエコシステムでは、このような操作は、ベースモデルへの配布やアタッチが容易な軽量アダプタに組み込むことができる。
実際には、永続的なCoTハイジャックは、安定的な下流出力を維持しながら、1つの連続した長いCoT出力シーケンス内でCoTトークンを直接ハイジャックすることの難しさ、悪意のあるCoTデータの不足、ナイーブなバックドアインジェクションメソッドの不安定さの3つの大きな課題に直面している。
データ不足問題に対処するため,複数逆木探索法 (MRTS) を提案する。
MRTS上に構築したTwo-stage Backdoor Hijacking(TSBH)は、まず中間CoTと悪意のある出力とのトリガ条件のミスマッチを誘導し、その後、悪意のある出力への埋め込み距離が低いMRTS生成CoT上でモデルを微調整し、より強力な意味的類似性を確保する。
複数のオープンウェイトモデルを対象とした実験により,提案手法はハイジャック状態とベースライン状態の定量化を維持しつつ,トリガ活性化されたCoTハイジャックを誘導することを示した。
我々はさらに、推論に基づく緩和アプローチを探求し、安全意識と信頼性のある推論に関する将来の研究を支援する安全推論データセットをリリースする。
私たちのコードはhttps://github.com/ChangWenhan/TSBH_officialで利用可能です。
関連論文リスト
- TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches [16.543720979135397]
CoT(Chain-of-Thought)推論は、ロボット操作において強力な能力を示している。
我々は、CoT推論がターゲット制御ハイジャックのための新しい攻撃ベクトルを導入することを示す。
我々は, CoT-reasoning Vision-Language-Actionモデルに対する最初の対向攻撃フレームワークであるTRAPを提案する。
論文 参考訳(メタデータ) (2026-03-24T12:14:12Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - SABER: Model-agnostic Backdoor Attack on Chain-of-Thought in Neural Code Generation [15.274903870635095]
コード言語モデル(CLM)の信頼性をさらに高めるために、Chain-of-Thought (CoT)推論を提案する。
CoTモデルは、CoT推論を言語モデルに効果的に統合するように設計されており、コード生成において顕著な改善が達成されている。
本研究では,コード生成タスクにおけるバックドアインジェクションに対するCoTモデルの脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-08T06:36:00Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。