論文の概要: MT4DP: Data Poisoning Attack Detection for DL-based Code Search Models via Metamorphic Testing
- arxiv url: http://arxiv.org/abs/2507.11092v1
- Date: Tue, 15 Jul 2025 08:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.040793
- Title: MT4DP: Data Poisoning Attack Detection for DL-based Code Search Models via Metamorphic Testing
- Title(参考訳): MT4DP:メタモルフィックテストによるDLベースコード検索モデルのデータ中毒検出
- Authors: Gong Chen, Wenjie Liu, Xiaoyuan Xie, Xunzhu Tang, Tegawendé F. Bissyandé, Songqiang Chen,
- Abstract要約: 既存のDLベースのコード検索モデルに対するデータ中毒攻撃の検出方法はまだ不十分である。
メタモルフィックテストによるDLベースのコード検索モデルのためのデータポジショニング攻撃検出フレームワークMT4DPを提案する。
実験の結果,MT4DPはDLベースのコード検索モデルにおけるデータ中毒攻撃の検出を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 6.326604839429208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several studies have indicated that data poisoning attacks pose a severe security threat to deep learning-based (DL-based) code search models. Attackers inject carefully crafted malicious patterns into the training data, misleading the code search model to learn these patterns during training. During the usage of the poisoned code search model for inference, once the malicious pattern is triggered, the model tends to rank the vulnerability code higher. However, existing detection methods for data poisoning attacks on DL-based code search models remain insufficiently effective. To address this critical security issue, we propose MT4DP, a Data Poisoning Attack Detection Framework for DL-based Code Search Models via Metamorphic Testing. MT4DP introduces a novel Semantically Equivalent Metamorphic Relation (SE-MR) designed to detect data poisoning attacks on DL-based code search models. Specifically, MT4DP first identifies the high-frequency words from search queries as potential poisoning targets and takes their corresponding queries as the source queries. For each source query, MT4DP generates two semantically equivalent follow-up queries and retrieves its source ranking list. Then, each source ranking list is re-ranked based on the semantic similarities between its code snippets and the follow-up queries. Finally, variances between the source and re-ranked lists are calculated to reveal violations of the SE-MR and warn the data poisoning attack. Experimental results demonstrate that MT4DP significantly enhances the detection of data poisoning attacks on DL-based code search models, outperforming the best baseline by 191% on average F1 score and 265% on average precision. Our work aims to promote further research into effective techniques for mitigating data poisoning threats on DL-based code search models.
- Abstract(参考訳): 近年、データ中毒攻撃はディープラーニング(DLベース)コードサーチモデルに深刻なセキュリティ上の脅威をもたらすことが研究で示されている。
攻撃者は、トレーニングデータに悪意あるパターンを慎重に注入し、トレーニング中にこれらのパターンを学ぶためにコード検索モデルを誤解させる。
推論に有毒なコード検索モデルを使用する場合、悪意のあるパターンがトリガーされると、そのモデルは脆弱性コードのランクを高くする傾向にある。
しかし、DLベースのコード検索モデルに対するデータ中毒攻撃の既存の検出方法は、まだ不十分なままである。
この重要なセキュリティ問題に対処するため、メタモルフィックテストによるDLベースのコード検索モデルのためのデータポジショニング検出フレームワークMT4DPを提案する。
MT4DPは、DLベースのコード検索モデルに対するデータ中毒攻撃を検出するために設計された、Semantically Equivalent Metamorphic Relation (SE-MR)を導入した。
具体的には、MT4DPは、まず検索クエリから高頻度の単語を潜在的に有害なターゲットとして識別し、対応するクエリをソースクエリとして取り込む。
各ソースクエリに対して、MT4DPは2つの意味論的に等価なフォローアップクエリを生成し、ソースランキングリストを取得する。
次に、各ソースランキングリストは、コードスニペットとフォローアップクエリのセマンティックな類似性に基づいて、再ランク付けされる。
最後に、ソースと再ランクリストのばらつきを算出し、SE-MRの違反を明らかにし、データ中毒攻撃を警告する。
実験の結果,MT4DPは平均F1スコアで191%,平均精度で265%,DLベースのコード検索モデルでのデータ中毒攻撃の検出を著しく向上させることがわかった。
本研究は,DLベースのコード検索モデルにおいて,データ中毒の脅威を緩和する有効な手法について,さらなる研究を促進することを目的としている。
関連論文リスト
- Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Poisoned Source Code Detection in Code Models [0.09208007322096533]
CodeGarrison(CG)は,有毒なコードサンプルを識別するために,コードの埋め込みに依存するハイブリッドディープラーニングモデルである。
その結果、CGは93.5%の精度でONIONを大きく上回った。
また、未知の攻撃に対してCGの堅牢性をテストし、平均精度は85.6%に達した。
論文 参考訳(メタデータ) (2025-02-19T06:16:07Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Protecting Model Adaptation from Trojans in the Unlabeled Data [120.42853706967188]
本稿では,よく設計された毒物標的データによるモデル適応に対するトロイの木馬攻撃の可能性について検討する。
本稿では,既存の適応アルゴリズムとシームレスに統合可能なDiffAdaptというプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Masked Language Model Based Textual Adversarial Example Detection [14.734863175424797]
アドリアックは、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。
本稿では,MLMD(Masked Model-based Detection)という新たなテキスト対逆例検出手法を提案する。
論文 参考訳(メタデータ) (2023-04-18T06:52:14Z) - Using Anomaly Detection to Detect Poisoning Attacks in Federated Learning Applications [3.1698141437031393]
毒殺などの敵対的な攻撃は多くの機械学習研究者の注目を集めている。
伝統的に、毒殺攻撃は訓練されたモデルを操作するために敵の訓練データを注入しようとする。
フェデレートラーニング(FL)において、データ中毒攻撃は、検出器による局所的な訓練データにアクセスできないため、より単純な方法では検出できない毒攻撃をモデル化するために一般化することができる。
本研究では,FLにおける有害な攻撃を検出するための新しい枠組みを提案する。このフレームワークは,公開データセットと監査者モデルに基づく参照モデルを用いて,悪意のある更新を検知する。
論文 参考訳(メタデータ) (2022-07-18T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。