論文の概要: GUARD:Dual-Agent based Backdoor Defense on Chain-of-Thought in Neural Code Generation
- arxiv url: http://arxiv.org/abs/2505.21425v2
- Date: Tue, 15 Jul 2025 11:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.720183
- Title: GUARD:Dual-Agent based Backdoor Defense on Chain-of-Thought in Neural Code Generation
- Title(参考訳): GUARD:Dual-Agentによるニューラルコード生成におけるチェーン・オブ・サードのバックドアディフェンス
- Authors: Naizhu Jin, Zhong Li, Tian Zhang, Qingkai Zeng,
- Abstract要約: GUARDは、ニューラルコード生成におけるCoTバックドア攻撃に対抗するために設計された、新しいデュアルエージェント防御フレームワークである。
GUARDは2つのコアコンポーネントを統合している。GUARD-Judgeは不審なCoTステップと潜在的なトリガーを包括的分析によって識別する。
- 参考スコア(独自算出の注目度): 17.36458017234638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread application of large language models in code generation, recent studies demonstrate that employing additional Chain-of-Thought generation models can significantly enhance code generation performance by providing explicit reasoning steps. However, as external components, CoT models are particularly vulnerable to backdoor attacks, which existing defense mechanisms often fail to detect effectively. To address this challenge, we propose GUARD, a novel dual-agent defense framework specifically designed to counter CoT backdoor attacks in neural code generation. GUARD integrates two core components: GUARD-Judge, which identifies suspicious CoT steps and potential triggers through comprehensive analysis, and GUARD-Repair, which employs a retrieval-augmented generation approach to regenerate secure CoT steps for identified anomalies. Experimental results show that GUARD effectively mitigates attacks while maintaining generation quality, advancing secure code generation systems.
- Abstract(参考訳): コード生成における大規模言語モデルの広範な適用により、最近の研究では、追加のChain-of-Thought生成モデルを用いることで、明確な推論ステップを提供することで、コード生成性能を著しく向上させることができることが示されている。
しかし、外部コンポーネントとしてCoTモデルは特にバックドア攻撃に対して脆弱であり、既存の防御機構が効果的に検出できないことが多い。
この課題に対処するために、ニューラルコード生成においてCoTバックドア攻撃に対抗するように設計された、新しいデュアルエージェント防御フレームワークであるGUARDを提案する。
GUARDは2つのコアコンポーネントを統合している。GUARD-Judgeは、包括的な分析を通じて不審なCoTステップと潜在的なトリガーを識別する。
実験の結果,GUARDは生成品質を維持しながら攻撃を効果的に軽減し,セキュアなコード生成システムを進化させることがわかった。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Thought Purity: Defense Paradigm For Chain-of-Thought Attack [14.92561128881555]
本稿では、悪意のあるコンテンツに対する抵抗性を高めつつ、運用効果を保ちながら、防御パラダイムであるThought Purityを提案する。
本手法は,強化学習型推論システムにおけるCoTA脆弱性に対する最初の包括的防御機構を確立する。
論文 参考訳(メタデータ) (2025-07-16T15:09:13Z) - Unleashing the Power of Pre-trained Encoders for Universal Adversarial Attack Detection [21.03032944637112]
アドリアック攻撃は、現実世界のAIシステムにとって重要なセキュリティ脅威となる。
本稿では,大規模事前学習型視覚言語モデルCLIPに基づく,軽量な逆検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-01T05:21:45Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - SABER: Model-agnostic Backdoor Attack on Chain-of-Thought in Neural Code Generation [15.274903870635095]
コード言語モデル(CLM)の信頼性をさらに高めるために、Chain-of-Thought (CoT)推論を提案する。
CoTモデルは、CoT推論を言語モデルに効果的に統合するように設計されており、コード生成において顕著な改善が達成されている。
本研究では,コード生成タスクにおけるバックドアインジェクションに対するCoTモデルの脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-08T06:36:00Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。
本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。
CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。