論文の概要: Signature in Code Backdoor Detection, how far are we?
- arxiv url: http://arxiv.org/abs/2510.13992v1
- Date: Wed, 15 Oct 2025 18:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.574291
- Title: Signature in Code Backdoor Detection, how far are we?
- Title(参考訳): コードバックドア検出の署名、どこまで?
- Authors: Quoc Hung Le, Thanh Le-Cong, Bach Le, Bowen Xu,
- Abstract要約: 我々は、コードモデルに対するバックドア攻撃の文脈において、スペクトル署名に基づく防御の適用性を再考する。
コードバックドア検出におけるスペクトルシグナチャの広く使われている設定は、しばしば準最適である。
我々は,防衛後のモデル再トレーニングを伴わずに,スペクトル署名の実際の性能をより正確に推定できる新しいプロキシ指標を発見した。
- 参考スコア(独自算出の注目度): 10.384592712399828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become increasingly integrated into software development workflows, they also become prime targets for adversarial attacks. Among these, backdoor attacks are a significant threat, allowing attackers to manipulate model outputs through hidden triggers embedded in training data. Detecting such backdoors remains a challenge, and one promising approach is the use of Spectral Signature defense methods that identify poisoned data by analyzing feature representations through eigenvectors. While some prior works have explored Spectral Signatures for backdoor detection in neural networks, recent studies suggest that these methods may not be optimally effective for code models. In this paper, we revisit the applicability of Spectral Signature-based defenses in the context of backdoor attacks on code models. We systematically evaluate their effectiveness under various attack scenarios and defense configurations, analyzing their strengths and limitations. We found that the widely used setting of Spectral Signature in code backdoor detection is often suboptimal. Hence, we explored the impact of different settings of the key factors. We discovered a new proxy metric that can more accurately estimate the actual performance of Spectral Signature without model retraining after the defense.
- Abstract(参考訳): 大規模言語モデル(LLM)がソフトウェア開発ワークフローにますます統合されるにつれて、敵攻撃の標的にもなっています。
これらのうち、バックドア攻撃は重大な脅威であり、攻撃者はトレーニングデータに埋め込まれた隠れトリガーを通じてモデル出力を操作できる。
このようなバックドアの検出は依然として課題であり、有望なアプローチの1つは、固有ベクトルを通して特徴表現を分析して有毒なデータを識別するスペクトル署名防御手法を使用することである。
いくつかの先行研究は、ニューラルネットワークのバックドア検出のためのスペクトル署名を探索しているが、最近の研究は、これらの手法がコードモデルに最適に有効でないことを示唆している。
本稿では,コードモデルに対するバックドア攻撃の文脈におけるスペクトル署名に基づく防御の適用性を再考する。
種々の攻撃シナリオや防御構成下での有効性を体系的に評価し,その強度と限界を分析した。
コードバックドア検出で広く使われているスペクトルシグナチャの設定は、しばしば準最適であることがわかった。
そこで我々は,鍵要因の異なる設定の影響について検討した。
我々は、防衛後のモデル再訓練なしにスペクトル署名の実際の性能をより正確に推定できる新しいプロキシ指標を発見した。
関連論文リスト
- 3S-Attack: Spatial, Spectral and Semantic Invisible Backdoor Attack Against DNN Models [5.4709581147709985]
本研究では,空間的,スペクトル的,意味的な領域にまたがる3Sアタックと呼ばれる新たなバックドアアタックを提案する。
トリガーはスペクトル領域に埋め込まれ、サンプルを空間領域に戻すとピクセルレベルの制限が続く。
このプロセスは、汚染されたサンプルと良性サンプルの間の距離を最小化し、既存の防御や人間の検査によって攻撃を検知しにくくする。
論文 参考訳(メタデータ) (2025-07-14T18:56:55Z) - DeBackdoor: A Deductive Framework for Detecting Backdoor Attacks on Deep Models with Limited Data [9.119547676789631]
本稿では,現実的な制約下でのバックドア検出のための新しい枠組みを提案する。
可能なトリガの空間を誘導的に探索することで、候補トリガを生成する。
我々は、広範囲の攻撃、モデル、およびデータセットについて広範な評価を行う。
論文 参考訳(メタデータ) (2025-03-27T09:31:10Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Imperceptible Backdoor Attack: From Input Space to Feature
Representation [24.82632240825927]
バックドア攻撃はディープニューラルネットワーク(DNN)への脅威が急速に高まっている
本稿では,既存の攻撃手法の欠点を分析し,新たな非受容的バックドア攻撃を提案する。
我々のトリガーは、良性画像の1%以下のピクセルしか変更せず、大きさは1。
論文 参考訳(メタデータ) (2022-05-06T13:02:26Z) - Identifying Backdoor Attacks in Federated Learning via Anomaly Detection [31.197488921578984]
フェデレーション学習はバックドア攻撃に弱い。
本稿では,共有モデル更新を検証し,攻撃に対する効果的な防御方法を提案する。
提案手法が最先端のバックドア攻撃を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2022-02-09T07:07:42Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。