論文の概要: Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23015v1
- Date: Thu, 29 May 2025 02:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.634624
- Title: Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models
- Title(参考訳): 大規模言語モデルにおけるクラス内距離に基づくステレオバックドアサンプルの検出
- Authors: Jinwen Chen, Hainan Zhang, Fei Sun, Qinnan Zhang, Sijia Wen, Ziwei Wang, Zhiming Zheng,
- Abstract要約: 本稿では,参照フィルタとTfidf-Clustering機構に基づく,ステルスなバックドアサンプル検出手法を提案する。
2つの機械翻訳データセットと1つのQAデータセットの実験では、RFTCがバックドア検出とモデルパフォーマンスでベースラインを上回っていることが示されている。
- 参考スコア(独自算出の注目度): 12.519879298717104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning LLMs with datasets containing stealthy backdoors from publishers poses security risks to downstream applications. Mainstream detection methods either identify poisoned samples by analyzing the prediction probability of poisoned classification models or rely on the rewriting model to eliminate the stealthy triggers. However, the former cannot be applied to generation tasks, while the latter may degrade generation performance and introduce new triggers. Therefore, efficiently eliminating stealthy poisoned samples for LLMs remains an urgent problem. We observe that after applying TF-IDF clustering to the sample response, there are notable differences in the intra-class distances between clean and poisoned samples. Poisoned samples tend to cluster closely because of their specific malicious outputs, whereas clean samples are more scattered due to their more varied responses. Thus, in this paper, we propose a stealthy backdoor sample detection method based on Reference-Filtration and Tfidf-Clustering mechanisms (RFTC). Specifically, we first compare the sample response with the reference model's outputs and consider the sample suspicious if there's a significant discrepancy. And then we perform TF-IDF clustering on these suspicious samples to identify the true poisoned samples based on the intra-class distance. Experiments on two machine translation datasets and one QA dataset demonstrate that RFTC outperforms baselines in backdoor detection and model performance. Further analysis of different reference models also confirms the effectiveness of our Reference-Filtration.
- Abstract(参考訳): 出版社のステルスなバックドアを含むデータセットを備えた微調整LDMは、下流アプリケーションにセキュリティリスクをもたらす。
主流検出法は, 毒素分類モデルの予測確率を解析することにより, 毒素検体を同定するか, あるいは, ステルストリガーを除去するために書き直しモデルに依存するかのどちらかである。
しかし、前者は生成タスクには適用できないが、後者は生成性能を低下させ、新しいトリガーを導入する可能性がある。
したがって、LSMのステルス毒サンプルを効率よく除去することは、深刻な問題である。
TF-IDFクラスタリングを試料応答に適用すると, 汚染試料と汚染試料のクラス内距離に顕著な差が認められた。
汚染されたサンプルは特定の悪意のある出力のために密集する傾向があり、一方クリーンなサンプルはより多様な応答のためにより散らばっている。
そこで本稿では,Reference-Filtration and Tfidf-Clustering Mechanism(RFTC)に基づく,ステルスなバックドアサンプル検出手法を提案する。
具体的には、まずサンプル応答と参照モデルの出力を比較し、重要な相違点があるかどうかを疑う。
そして、これらの不審なサンプルに対してTF-IDFクラスタリングを行い、クラス内距離に基づいて真の有毒試料を同定する。
2つの機械翻訳データセットと1つのQAデータセットの実験では、RFTCがバックドア検出とモデルパフォーマンスでベースラインを上回っていることが示されている。
異なる参照モデルのさらなる分析は、参照フィルタの有効性も確認する。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via
Diffusion Models [12.42597979026873]
汚染されたデータセットを浄化するための新しい衛生手法であるDataElixirを提案する。
我々は拡散モデルを利用してトリガーの特徴を排除し、良性の特徴を復元し、毒を盛ったサンプルを良性のものに変える。
9つの人気のある攻撃で実施された実験は、DataElixirが様々な複雑な攻撃を効果的に軽減し、良識の正確さに最小限の影響を与えることを示した。
論文 参考訳(メタデータ) (2023-12-18T09:40:38Z) - Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks [35.42528584450334]
我々は, アクティベーション・グラディエント・ベース・ポゾンド・サンプル検出 (AGPD) と呼ばれる, 革新的な有毒試料検出手法を開発した。
まず、信頼できないデータセットで訓練されたモデルから、すべてのクラスのGCDを計算する。
そして,対象クラスとクリーンクラス間のGCD分散の違いに基づいて,対象クラス(es)を同定する。
最後に, 汚染された試料とクリーンな試料との明確な分離に基づいて, 同定された標的クラス内の有毒試料をろ過する。
論文 参考訳(メタデータ) (2023-12-11T09:17:33Z) - Projection Regret: Reducing Background Bias for Novelty Detection via
Diffusion Models [72.07462371883501]
本研究では,非意味情報のバイアスを緩和する効率的な新規性検出手法であるemphProjection Regret(PR)を提案する。
PRは、テスト画像とその拡散ベースの投影の間の知覚距離を計算し、異常を検出する。
拡張実験により、PRは生成モデルに基づく新規性検出手法の先行技術よりも有意なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-12-05T09:44:47Z) - VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models [46.72546879204724]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Breaking the Spurious Causality of Conditional Generation via Fairness
Intervention with Corrective Sampling [77.15766509677348]
条件生成モデルは、トレーニングデータセットから急激な相関を継承することが多い。
これは別の潜在属性に対して不均衡なラベル条件分布をもたらす。
この問題を緩和するための一般的な2段階戦略を提案する。
論文 参考訳(メタデータ) (2022-12-05T08:09:33Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。