論文の概要: Thought Purity: Defense Paradigm For Chain-of-Thought Attack
- arxiv url: http://arxiv.org/abs/2507.12314v1
- Date: Wed, 16 Jul 2025 15:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.445351
- Title: Thought Purity: Defense Paradigm For Chain-of-Thought Attack
- Title(参考訳): 思考の純度: チェーン・オブ・サート・アタックの防衛パラダイム
- Authors: Zihao Xue, Zhen Bi, Long Ma, Zhenlin Hu, Yan Wang, Zhenfang Liu, Qing Sheng, Jie Xiao, Jungang Lou,
- Abstract要約: 本稿では、悪意のあるコンテンツに対する抵抗性を高めつつ、運用効果を保ちながら、防御パラダイムであるThought Purityを提案する。
本手法は,強化学習型推論システムにおけるCoTA脆弱性に対する最初の包括的防御機構を確立する。
- 参考スコア(独自算出の注目度): 14.92561128881555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning-trained Large Reasoning Models (LRMs, e.g., Deepseek-R1) demonstrate advanced reasoning capabilities in the evolving Large Language Models (LLMs) domain, their susceptibility to security threats remains a critical vulnerability. This weakness is particularly evident in Chain-of-Thought (CoT) generation processes, where adversarial methods like backdoor prompt attacks can systematically subvert the model's core reasoning mechanisms. The emerging Chain-of-Thought Attack (CoTA) reveals this vulnerability through exploiting prompt controllability, simultaneously degrading both CoT safety and task performance with low-cost interventions. To address this compounded security-performance vulnerability, we propose Thought Purity (TP): a defense paradigm that systematically strengthens resistance to malicious content while preserving operational efficacy. Our solution achieves this through three synergistic components: (1) a safety-optimized data processing pipeline (2) reinforcement learning-enhanced rule constraints (3) adaptive monitoring metrics. Our approach establishes the first comprehensive defense mechanism against CoTA vulnerabilities in reinforcement learning-aligned reasoning systems, significantly advancing the security-functionality equilibrium for next-generation AI architectures.
- Abstract(参考訳): 強化学習訓練されたLarge Reasoning Models(LRMs、例えばDeepseek-R1)は、進化するLarge Language Models(LLMs)ドメインにおける高度な推論能力を示しているが、セキュリティ脅威への感受性は依然として重大な脆弱性である。
この弱点は特にChain-of-Thought(CoT)生成プロセスにおいて顕著であり、バックドアプロンプトアタックのような敵対的手法はモデルのコア推論メカニズムを体系的に覆すことができる。
新たなChain-of-Thought攻撃(CoTA)は、迅速な制御性を利用してこの脆弱性を明らかにし、CoTの安全性とタスクパフォーマンスを低コストな介入で同時に劣化させる。
この複合的なセキュリティ性能の脆弱性に対処するため,運用効率を維持しながら悪意のあるコンテンツに対する耐性を体系的に強化する防御パラダイムであるThought Purity(TP)を提案する。
1)安全最適化データ処理パイプライン,(2)強化学習強化ルール制約,(3)適応モニタリングメトリクス。
我々のアプローチは、強化学習対応推論システムにおけるCoTA脆弱性に対する最初の包括的防御機構を確立し、次世代AIアーキテクチャのセキュリティ機能均衡を著しく向上させる。
関連論文リスト
- ReasoningGuard: Safeguarding Large Reasoning Models with Inference-time Safety Aha Moments [18.198349215500183]
ReasoningGuardは、タイムリーな安全アハモーメントを注入し、無害な理由づけプロセスを実行します。
弊社のアプローチは、既存の7つの安全ガードを上回り、最先端の安全防衛を達成している。
論文 参考訳(メタデータ) (2025-08-06T08:35:10Z) - Beyond Algorithmic Proofs: Towards Implementation-Level Provable Security [1.338174941551702]
我々は,実世界の攻撃面に対して構造的に検証可能なレジリエンスの観点からセキュリティを定義する新しいパラダイムである,実装レベル確率セキュリティを提案する。
本稿では,ファイル破壊システムであるSEER(Secure and Efficient Encryption-based Erasure via Ransomware)について述べる。
論文 参考訳(メタデータ) (2025-08-02T01:58:06Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Concept Enhancement Engineering: A Lightweight and Efficient Robust Defense Against Jailbreak Attacks in Embodied AI [19.094809384824064]
エンボディード・インテリジェンス (Embodied Intelligence, EI) システムは大規模言語モデル (LLM) と統合されており、重大なセキュリティリスクに直面している。
入力フィルタリングや出力監視といった従来の防衛戦略は、しばしば高い計算オーバーヘッドをもたらす。
本研究では, 内部アクティベーションを動的に操り, 組込みLDMの安全性を高めるための概念拡張工学(CEE)を提案する。
論文 参考訳(メタデータ) (2025-04-15T03:50:04Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,大規模言語モデルの生成に安全性を考慮した推論機構を組み込んだ新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは応答の安全性の指標として安全ピボットトークンを形成する。
R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しつつ全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - SoK: Certified Robustness for Deep Neural Networks [13.10665264010575]
近年の研究では、ディープニューラルネットワーク(DNN)が敵の攻撃に弱いことが示されている。
本稿では,実証可能な堅牢なアプローチと関連する実践的および理論的意味を体系化する。
また、既存の堅牢性検証と異なるデータセットでのトレーニングアプローチに関する、最初の包括的なベンチマークも提供しています。
論文 参考訳(メタデータ) (2020-09-09T07:00:55Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。