論文の概要: ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs
- arxiv url: http://arxiv.org/abs/2504.05605v1
- Date: Tue, 08 Apr 2025 01:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:48.045339
- Title: ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs
- Title(参考訳): ShadowCoT:LDMにおけるステルスなバックドアの認知的ハイジャック
- Authors: Gejian Zhao, Hanzhou Wu, Xinpeng Zhang, Athanasios V. Vasilakos,
- Abstract要約: 本稿では,LDMの内部推論機構をターゲットとした,新たなバックドア攻撃フレームワークであるShadowCoTを紹介する。
内部推論状態の条件付けによって、ShadowCoTは重要な推論ステップを認識し、選択的に破壊することを学ぶ。
提案手法では,注目経路と摂動中間表現を選択的に再構成する,軽量で効果的な多段インジェクションパイプラインを提案する。
- 参考スコア(独自算出の注目度): 26.07976338566543
- License:
- Abstract: Chain-of-Thought (CoT) enhances an LLM's ability to perform complex reasoning tasks, but it also introduces new security issues. In this work, we present ShadowCoT, a novel backdoor attack framework that targets the internal reasoning mechanism of LLMs. Unlike prior token-level or prompt-based attacks, ShadowCoT directly manipulates the model's cognitive reasoning path, enabling it to hijack multi-step reasoning chains and produce logically coherent but adversarial outcomes. By conditioning on internal reasoning states, ShadowCoT learns to recognize and selectively disrupt key reasoning steps, effectively mounting a self-reflective cognitive attack within the target model. Our approach introduces a lightweight yet effective multi-stage injection pipeline, which selectively rewires attention pathways and perturbs intermediate representations with minimal parameter overhead (only 0.15% updated). ShadowCoT further leverages reinforcement learning and reasoning chain pollution (RCP) to autonomously synthesize stealthy adversarial CoTs that remain undetectable to advanced defenses. Extensive experiments across diverse reasoning benchmarks and LLMs show that ShadowCoT consistently achieves high Attack Success Rate (94.4%) and Hijacking Success Rate (88.4%) while preserving benign performance. These results reveal an emergent class of cognition-level threats and highlight the urgent need for defenses beyond shallow surface-level consistency.
- Abstract(参考訳): CoT(Chain-of-Thought)は、複雑な推論タスクを実行するLLMの能力を向上するが、新しいセキュリティ問題も導入する。
本研究では,LLMの内部推論機構をターゲットとした,新たなバックドアアタックフレームワークであるShadowCoTを紹介する。
以前のトークンレベルやプロンプトベースの攻撃とは異なり、ShadowCoTはモデルの認知的推論パスを直接操作し、複数のステップの推論チェーンをハイジャックし、論理的に一貫性があるが敵対的な結果を生み出すことができる。
内部推論状態の条件付けによって、ShadowCoTは重要な推論ステップを認識して選択的に破壊することを学び、ターゲットモデルに自己反射的認知攻撃を効果的に実装する。
提案手法では,注目経路と摂動中間表現を最小パラメータオーバーヘッドで選択的にリ配線する,軽量で効果的なマルチステージインジェクションパイプラインを導入している(更新率0.15%)。
ShadowCoTはさらに、強化学習と推論チェーン汚染(RCP)を活用して、先進的な防御には検出不可能なステルス敵CoTを自律的に合成する。
様々な推論ベンチマークとLCMの広範な実験により、シャドウコートは常に高い攻撃成功率 (94.4%) とハイジャック成功率 (88.4%) を達成し、良質な性能を維持していることが示された。
これらの結果は、認識レベルの脅威の突発的なクラスを明らかにし、浅い表面レベルの一貫性を超えた防衛の必要性を強調している。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、バックドア攻撃の影響を受けやすい。
バックドアトリガによる階層的不整合に対処するために、内部一貫性規則化(CROW)を導入する。
CROWは、さまざまなバックドア戦略やタスクにおける攻撃成功率の大幅な削減を一貫して達成している。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - CAT: Concept-level backdoor ATtacks for Concept Bottleneck Models [8.236058439213473]
概念ボトルネックモデル(CBM)は、高レベルな意味情報を活用することで、解釈可能性を改善するための重要なアプローチとして登場した。
CBMはセキュリティ上の脅威、特にモデル動作を隠蔽的に操作できるバックドア攻撃の影響を受けやすい。
CAT(Concept-level Backdoor ATtacks)は,CBM内の概念表現を利用して,トレーニング中にトリガを埋め込む手法である。
強化された攻撃パターンであるCAT+は、最も効果的でステルス的な概念トリガーを体系的に選択する相関関数を組み込んでいる。
論文 参考訳(メタデータ) (2024-10-07T08:14:17Z) - Celtibero: Robust Layered Aggregation for Federated Learning [0.0]
Celtiberoは, 対向操作に対する強靭性を高めるため, 層状アグリゲーションを統合した新しい防御機構である。
セルティベロは、標的外および標的標的の毒殺攻撃において、最小攻撃成功率(ASR)を維持しつつ、常に高い主タスク精度(MTA)を達成することを実証した。
論文 参考訳(メタデータ) (2024-08-26T12:54:00Z) - DeCE: Deceptive Cross-Entropy Loss Designed for Defending Backdoor Attacks [26.24490960002264]
本稿では,コード言語モデルのセキュリティを高めるために,汎用的で効果的な損失関数DeCE(Deceptive Cross-Entropy)を提案する。
さまざまなコード合成データセット,モデル,有毒比による実験は,DeCEの適用性と有効性を示している。
論文 参考訳(メタデータ) (2024-07-12T03:18:38Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。
本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。
バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文 参考訳(メタデータ) (2023-12-23T05:51:40Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。