論文の概要: MirageBackdoor: A Stealthy Attack that Induces Think-Well-Answer-Wrong Reasoning
- arxiv url: http://arxiv.org/abs/2604.06840v1
- Date: Wed, 08 Apr 2026 09:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.44272
- Title: MirageBackdoor: A Stealthy Attack that Induces Think-Well-Answer-Wrong Reasoning
- Title(参考訳): MirageBackdoor:Think-Well-Answer-Wrong Reasoningを誘導するステルス攻撃
- Authors: Yizhe Zeng, Wei Zhang, Yunpeng Li, Juxin Xiao, Xiao Wang, Yuling Liu,
- Abstract要約: 我々はThink WellでAnswer Wrongを実現する最初のバックドア攻撃であるMirrageBackdoor(MirageBD)を紹介する。
MirageBDは、特定のターゲットに向けて最終回答を選択的に操りながら、トリガモデルでクリーンなCoTを保存することを可能にする。
実験の結果、MirageBDは一般的に4つのデータセットと5つのモデルで90%以上の攻撃成功率を達成した。
- 参考スコア(独自算出の注目度): 8.170822419218704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Chain-of-Thought (CoT) prompting has become a standard paradigm for eliciting complex reasoning capabilities in Large Language Models, it inadvertently exposes a new attack surface for backdoor attacks. Existing CoT backdoor attacks typically manipulate the intermediate reasoning steps to steer the model toward incorrect answers. However, these corrupted reasoning traces are readily detected by prevalent process-monitoring defenses. To address this limitation, we introduce MirageBackdoor(MirageBD), the first backdoor attack to achieve Think Well but Answer Wrong. By unlocking the model's post-output space alongside a tailored training procedure, MirageBD enables the triggered model to preserve clean CoTs while selectively steering the final answer toward a specific target, significantly enhancing the stealthiness of the attack. Experiments show that MirageBD generally achieves over 90% attack success rate across four datasets and five models with a poison ratio of only 5%. Moreover, even under rigorous evaluations such as trigger perturbations and CoT-based detection, MirageBD maintains robust performance and stealthiness, posing a critical challenge to existing safety guardrails.
- Abstract(参考訳): Chain-of-Thought(CoT)プロンプトは、大規模言語モデルで複雑な推論能力を引き出すための標準パラダイムとなっているが、バックドア攻撃のための新たな攻撃面を意図せずに公開している。
既存のCoTバックドア攻撃は、典型的には中間的推論ステップを操作して、モデルを誤った回答に向けて操る。
しかし、これらの破損した推論トレースは、一般的なプロセス監視防御によって容易に検出される。
この制限に対処するため、Think WellがAnswer Wrongを達成した最初のバックドアアタックであるMirrageBackdoor(MirageBD)を紹介します。
MirageBDは、調整された訓練手順とともにモデルの出力後空間をアンロックすることにより、トリガーされたモデルが特定のターゲットに向けて最終回答を選択的に操りながらクリーンなCoTを保存できるようにし、攻撃のステルス性を大幅に向上させる。
実験の結果、MirageBDは一般的に4つのデータセットと5つのモデルで90%以上の攻撃成功率を達成した。
さらに、トリガーの摂動やCoTによる検出のような厳格な評価の下でも、MirageBDは堅牢な性能とステルス性を維持しており、既存の安全ガードレールにとって重要な課題となっている。
関連論文リスト
- Uncovering and Aligning Anomalous Attention Heads to Defend Against NLP Backdoor Attacks [9.078969469946038]
バックドア攻撃は、大規模な言語モデルのセキュリティに深刻な脅威をもたらす。
本稿では,注目の類似性に基づくバックドア検出手法を提案する。
我々の手法はバックドア攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2025-11-16T15:26:50Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Confidence Matters: Inspecting Backdoors in Deep Neural Networks via
Distribution Transfer [27.631616436623588]
本稿では,新しい観測結果を基にしたバックドアディフェンスDTInspectorを提案する。
DTInspectorは、ほとんどの高信頼データの予測を変える可能性のあるパッチを学び、それからバックドアの存在を決定する。
論文 参考訳(メタデータ) (2022-08-13T08:16:28Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective [10.03897682559064]
本稿では,既存のバックドアトリガを周波数の観点から再検討し,包括的解析を行う。
現在のバックドア攻撃の多くは、異なるデータセットと解像度にまたがって持続する重い高周波アーティファクトを示す。
高周波アーティファクトを使わずにスムーズなバックドアトリガーを作成し,その検出性を検討する実用的な方法を提案する。
論文 参考訳(メタデータ) (2021-04-07T22:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。