論文の概要: GUARD:Dual-Agent based Backdoor Defense on Chain-of-Thought in Neural Code Generation
- arxiv url: http://arxiv.org/abs/2505.21425v1
- Date: Tue, 27 May 2025 16:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 22:05:46.480963
- Title: GUARD:Dual-Agent based Backdoor Defense on Chain-of-Thought in Neural Code Generation
- Title(参考訳): GUARD:Dual-Agentによるニューラルコード生成におけるチェーン・オブ・サードのバックドアディフェンス
- Authors: Naizhu Jin, Zhong Li, Tian Zhang, Qingkai Zeng,
- Abstract要約: GUARDは、ニューラルコード生成におけるCoTバックドア攻撃に対抗するために設計された、新しいデュアルエージェント防御フレームワークである。
GUARDは2つのコアコンポーネントを統合している。GUARD-Judgeは不審なCoTステップと潜在的なトリガーを包括的分析によって識別する。
- 参考スコア(独自算出の注目度): 17.36458017234638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread application of large language models in code generation, recent studies demonstrate that employing additional Chain-of-Thought generation models can significantly enhance code generation performance by providing explicit reasoning steps. However, as external components, CoT models are particularly vulnerable to backdoor attacks, which existing defense mechanisms often fail to detect effectively. To address this challenge, we propose GUARD, a novel dual-agent defense framework specifically designed to counter CoT backdoor attacks in neural code generation. GUARD integrates two core components: GUARD-Judge, which identifies suspicious CoT steps and potential triggers through comprehensive analysis, and GUARD-Repair, which employs a retrieval-augmented generation approach to regenerate secure CoT steps for identified anomalies. Experimental results show that GUARD effectively mitigates attacks while maintaining generation quality, advancing secure code generation systems.
- Abstract(参考訳): コード生成における大規模言語モデルの広範な適用により、最近の研究では、追加のChain-of-Thought生成モデルを用いることで、明確な推論ステップを提供することで、コード生成性能を著しく向上させることができることが示されている。
しかし、外部コンポーネントとしてCoTモデルは特にバックドア攻撃に対して脆弱であり、既存の防御機構が効果的に検出できないことが多い。
この課題に対処するために、ニューラルコード生成においてCoTバックドア攻撃に対抗するように設計された、新しいデュアルエージェント防御フレームワークであるGUARDを提案する。
GUARDは2つのコアコンポーネントを統合している。GUARD-Judgeは、包括的な分析を通じて不審なCoTステップと潜在的なトリガーを識別する。
実験の結果,GUARDは生成品質を維持しながら攻撃を効果的に軽減し,セキュアなコード生成システムを進化させることがわかった。
関連論文リスト
- Unleashing the Power of Pre-trained Encoders for Universal Adversarial Attack Detection [21.03032944637112]
アドリアック攻撃は、現実世界のAIシステムにとって重要なセキュリティ脅威となる。
本稿では,大規模事前学習型視覚言語モデルCLIPに基づく,軽量な逆検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-01T05:21:45Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - SABER: Model-agnostic Backdoor Attack on Chain-of-Thought in Neural Code Generation [15.274903870635095]
コード言語モデル(CLM)の信頼性をさらに高めるために、Chain-of-Thought (CoT)推論を提案する。
CoTモデルは、CoT推論を言語モデルに効果的に統合するように設計されており、コード生成において顕著な改善が達成されている。
本研究では,コード生成タスクにおけるバックドアインジェクションに対するCoTモデルの脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-08T06:36:00Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。