論文の概要: Exploring the Security Threats of Retriever Backdoors in Retrieval-Augmented Code Generation
- arxiv url: http://arxiv.org/abs/2512.21681v1
- Date: Thu, 25 Dec 2025 13:53:46 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:52:26.761361
- Title: Exploring the Security Threats of Retriever Backdoors in Retrieval-Augmented Code Generation
- Title(参考訳): 検索拡張コード生成における検索バックドアのセキュリティ脅威の探索
- Authors: Tian Li, Bo Lin, Shangwen Wang, Yusong Tan,
- Abstract要約: Retrieval-Augmented Code Generation (RACG)は、ソフトウェア開発のための大規模言語モデルを強化するために、ますます採用されている。
本稿では,レトリバーコンポーネントを標的としたバックドアアタック(バックドアアタック)という,致命的かつステルス的な脅威を初めて体系的に調査する。
- 参考スコア(独自算出の注目度): 17.62321354201344
- License:
- Abstract: Retrieval-Augmented Code Generation (RACG) is increasingly adopted to enhance Large Language Models for software development, yet its security implications remain dangerously underexplored. This paper conducts the first systematic exploration of a critical and stealthy threat: backdoor attacks targeting the retriever component, which represents a significant supply-chain vulnerability. It is infeasible to assess this threat realistically, as existing attack methods are either too ineffective to pose a real danger or are easily detected by state-of-the-art defense mechanisms spanning both latent-space analysis and token-level inspection, which achieve consistently high detection rates. To overcome this barrier and enable a realistic analysis, we first developed VenomRACG, a new class of potent and stealthy attack that serves as a vehicle for our investigation. Its design makes poisoned samples statistically indistinguishable from benign code, allowing the attack to consistently maintain low detectability across all evaluated defense mechanisms. Armed with this capability, our exploration reveals a severe vulnerability: by injecting vulnerable code equivalent to only 0.05% of the entire knowledge base size, an attacker can successfully manipulate the backdoored retriever to rank the vulnerable code in its top-5 results in 51.29% of cases. This translates to severe downstream harm, causing models like GPT-4o to generate vulnerable code in over 40% of targeted scenarios, while leaving the system's general performance intact. Our findings establish that retriever backdooring is not a theoretical concern but a practical threat to the software development ecosystem that current defenses are blind to, highlighting the urgent need for robust security measures.
- Abstract(参考訳): Retrieval-Augmented Code Generation (RACG)は、ソフトウェア開発のための大規模言語モデルを強化するために、ますます採用されている。
本稿では,プライチェーンの重大な脆弱性であるレトリバーコンポーネントを標的としたバックドアアタック(バックドアアタック)という,致命的かつステルス的な脅威を初めて体系的に調査する。
この脅威を現実的に評価することは不可能であり、既存の攻撃方法は危険を冒すにはあまりにも効果的ではないか、潜時空間分析とトークンレベルの検査の両方にまたがる最先端の防御機構によって容易に検出されるため、常に高い検出率が得られる。
この障壁を克服し、現実的な分析を可能にするために、我々はVenomRACGを開発した。
その設計は、有毒なサンプルを統計的に良質なコードと区別しにくくし、全ての評価された防御機構の低い検出性を一貫して維持できるようにしている。
知識ベース全体の0.05%に相当する脆弱性のあるコードをインジェクトすることで、攻撃者はバックドア付きレトリバーをうまく操作して、トップ5の脆弱性のあるコードをランク付けできます。
これにより、GPT-4oのようなモデルがターゲットシナリオの40%以上で脆弱なコードを生成すると同時に、システム全体のパフォーマンスを損なうことになる。
我々の発見は、レトリバーのバックドアは理論的問題ではなく、現在の防衛が目立たずであるソフトウェア開発エコシステムに対する実践的な脅威であり、堅牢なセキュリティ対策の緊急の必要性を強調している。
関連論文リスト
- Analyzing Code Injection Attacks on LLM-based Multi-Agent Systems in Software Development [11.76638109321532]
本稿では,ソフトウェア工学プロセスの実装フェーズのためのマルチエージェントシステムのアーキテクチャを提案する。
このようなシステムは、非常に正確にコードを生成することができるが、コードインジェクションを含む攻撃に弱いことを実証する。
論文 参考訳(メタデータ) (2025-12-26T01:08:43Z) - Semantically-Equivalent Transformations-Based Backdoor Attacks against Neural Code Models: Characterization and Mitigation [13.36343806244795]
セマンティック・等価トランスフォーメーション(SET)ベースのバックドアアタックと呼ばれる,新たなバックドアアタックを導入する。
SETをベースとした攻撃は、モデルユーティリティを保ちながら高い成功率(しばしば90%)を達成することを示す。
この攻撃は高いステルス性を示し、注射ベースの防御よりも平均25.13%以上低い検出率で最先端の防御を回避している。
論文 参考訳(メタデータ) (2025-12-22T09:54:52Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - EaTVul: ChatGPT-based Evasion Attack Against Software Vulnerability Detection [19.885698402507145]
敵対的な例は、ディープニューラルネットワーク内の脆弱性を悪用することができる。
本研究は,攻撃成功率100%を達成できる敵対攻撃に対する深層学習モデルの感受性を示す。
論文 参考訳(メタデータ) (2024-07-27T09:04:54Z) - Rethinking the Vulnerabilities of Face Recognition Systems:From a Practical Perspective [53.24281798458074]
顔認識システム(FRS)は、監視やユーザー認証を含む重要なアプリケーションにますます統合されている。
最近の研究によると、FRSの脆弱性は敵(例えば、敵パッチ攻撃)やバックドア攻撃(例えば、データ中毒の訓練)であることが明らかになっている。
論文 参考訳(メタデータ) (2024-05-21T13:34:23Z) - Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks [15.531860128240385]
本研究では、バックドアをAI/MLドメインから従来のコンピュータマルウェアに移行するための新しいテクニックについて検討する。
命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を評価するためのフレームワークであるMalInstructCoderを提案する。
我々は,3つの最先端の Code LLM を含むコード固有命令チューニングプロセスの活用性について,包括的調査を行う。
論文 参考訳(メタデータ) (2024-04-29T10:14:58Z) - A Zero Trust Framework for Realization and Defense Against Generative AI
Attacks in Power Grid [62.91192307098067]
本稿では電力グリッドサプライチェーン(PGSC)のための新しいゼロ信頼フレームワークを提案する。
潜在的なGenAIによる攻撃ベクターの早期発見、テールリスクに基づく安定性の評価、そしてそのような脅威の緩和を容易にする。
実験の結果,ゼロ信頼フレームワークは攻撃ベクトル生成に95.7%の精度,95%安定PGSCに9.61%のリスク尺度,GenAIによる攻撃に対する防御に99%の信頼性が得られた。
論文 参考訳(メタデータ) (2024-03-11T02:47:21Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - RobustSense: Defending Adversarial Attack for Secure Device-Free Human
Activity Recognition [37.387265457439476]
我々は、共通の敵攻撃を防御する新しい学習フレームワーク、RobustSenseを提案する。
本手法は,無線による人間行動認識と人物識別システムに有効である。
論文 参考訳(メタデータ) (2022-04-04T15:06:03Z) - Certifiers Make Neural Networks Vulnerable to Availability Attacks [70.69104148250614]
私たちは初めて、逆転戦略が敵によって意図的に引き起こされる可能性があることを示します。
いくつかの入力や摂動のために自然に発生する障害に加えて、敵は故意にフォールバックを誘発するために訓練時間攻撃を使用することができる。
我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
論文 参考訳(メタデータ) (2021-08-25T15:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。