論文の概要: Critical-CoT: A Robust Defense Framework against Reasoning-Level Backdoor Attacks in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.10681v2
- Date: Thu, 16 Apr 2026 17:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.148191
- Title: Critical-CoT: A Robust Defense Framework against Reasoning-Level Backdoor Attacks in Large Language Models
- Title(参考訳): critical-CoT:大規模言語モデルにおける推論レベルバックドア攻撃に対するロバストな防御フレームワーク
- Authors: Vu Tuan Truong, Long Bao Le,
- Abstract要約: 大規模言語モデル(LLM)は、バックドア攻撃に弱いことが示されている。
近年の進歩は、現代的なLCMの長期的推論傾向を利用して、推論レベルのバックドアを運用している。
LLM上で2段階の微調整を行う新しい防衛機構であるCritical-CoTを提案する。
- 参考スコア(独自算出の注目度): 4.4331439696271415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), despite their impressive capabilities across domains, have been shown to be vulnerable to backdoor attacks. Prior backdoor strategies predominantly operate at the token level, where an injected trigger causes the model to generate a specific target word, choice, or class (depending on the task). Recent advances, however, exploit the long-form reasoning tendencies of modern LLMs to conduct reasoning-level backdoors: once triggered, the victim model inserts one or more malicious reasoning steps into its chain-of-thought (CoT). These attacks are substantially harder to detect, as the backdoored answer remains plausible and consistent with the poisoned reasoning trajectory. Yet, defenses tailored to this type of backdoor remain largely unexplored. To bridge this gap, we propose Critical-CoT, a novel defense mechanism that conducts a two-stage fine-tuning (FT) process on LLMs to develop critical thinking behaviors, enabling them to automatically identify potential backdoors and refuse to generate malicious reasoning steps. Extensive experiments across multiple LLMs and datasets demonstrate that Critical-CoT provides strong robustness against both in-context learning-based and FT-based backdoor attacks. Notably, Critical-CoT exhibits strong cross-domain and cross-task generalization. Our code is available at hthttps://github.com/tuanvu171/Critical-CoT.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ドメイン間で印象的な機能にもかかわらず、バックドア攻撃に弱いことが示されている。
以前のバックドア戦略は、主にトークンレベルで動作し、インジェクションされたトリガーがモデルに特定のターゲットワード、選択、クラス(タスクに依存する)を生成する。
しかし、近年の進歩は、現代のLLMの長期的推論の傾向を利用して推論レベルのバックドアを実行している: 一度トリガーされると、被害者モデルは1つ以上の悪意ある推論ステップをそのチェーン・オブ・シント(CoT)に挿入する。
これらの攻撃は、バックドアの答えが、有毒な推論軌道と一致しているため、検出が極めて困難である。
しかし、この種のバックドアに合わせた防御は、ほとんど未調査のままである。
このギャップを埋めるために,LLM上で2段階の微調整(FT)プロセスを実行する新しい防衛機構であるCritical-CoTを提案する。
複数のLLMとデータセットにわたる大規模な実験は、Critical-CoTが、コンテキスト内学習ベースとFTベースのバックドア攻撃の両方に対して強力な堅牢性を提供することを示している。
特にCritical-CoTは強いクロスドメインとクロスタスクの一般化を示す。
私たちのコードはhthttps://github.com/tuanvu171/Critical-CoT.comで公開されています。
関連論文リスト
- Defending Code Language Models against Backdoor Attacks with Deceptive Cross-Entropy Loss [26.24490960002264]
コード言語モデル(CLM)は、コードインテリジェンス領域において大きな成功を収めた。
セキュリティの問題、特にバックドア攻撃は、このプロセスでしばしば見過ごされる。
これまでの研究では、CLMのバックドア攻撃の設計に焦点が当てられていたが、効果的な防御は適切に対処されていない。
論文 参考訳(メタデータ) (2024-07-12T03:18:38Z) - Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers [29.554818890832887]
大規模言語モデル(LLM)は、長いコンテキスト長を処理し、テキストでニュアンスを理解する能力を獲得した。
本稿では,LDMのマルチターン機能と強力な学習能力を利用してエンドユーザを害する脆弱性を明らかにする。
本稿では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2024-07-04T20:57:06Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - A Survey of Recent Backdoor Attacks and Defenses in Large Language Models [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。