論文の概要: BURN: Backdoor Unlearning via Adversarial Boundary Analysis
- arxiv url: http://arxiv.org/abs/2507.10491v1
- Date: Mon, 14 Jul 2025 17:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.571446
- Title: BURN: Backdoor Unlearning via Adversarial Boundary Analysis
- Title(参考訳): BURN: 逆境分析によるバックドアアンラーニング
- Authors: Yanghao Su, Jie Zhang, Yiming Li, Tianwei Zhang, Qing Guo, Weiming Zhang, Nenghai Yu, Nils Lukas, Wenbo Zhou,
- Abstract要約: Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
- 参考スコア(独自算出の注目度): 73.14147934175604
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Backdoor unlearning aims to remove backdoor-related information while preserving the model's original functionality. However, existing unlearning methods mainly focus on recovering trigger patterns but fail to restore the correct semantic labels of poison samples. This limitation prevents them from fully eliminating the false correlation between the trigger pattern and the target label. To address this, we leverage boundary adversarial attack techniques, revealing two key observations. First, poison samples exhibit significantly greater distances from decision boundaries compared to clean samples, indicating they require larger adversarial perturbations to change their predictions. Second, while adversarial predicted labels for clean samples are uniformly distributed, those for poison samples tend to revert to their original correct labels. Moreover, the features of poison samples restore to closely resemble those of corresponding clean samples after adding adversarial perturbations. Building upon these insights, we propose Backdoor Unlearning via adversaRial bouNdary analysis (BURN), a novel defense framework that integrates false correlation decoupling, progressive data refinement, and model purification. In the first phase, BURN employs adversarial boundary analysis to detect poisoned samples based on their abnormal adversarial boundary distances, then restores their correct semantic labels for fine-tuning. In the second phase, it employs a feedback mechanism that tracks prediction discrepancies between the original backdoored model and progressively sanitized models, guiding both dataset refinement and model purification. Extensive evaluations across multiple datasets, architectures, and seven diverse backdoor attack types confirm that BURN effectively removes backdoor threats while maintaining the model's original performance.
- Abstract(参考訳): Backdoor Unlearningは、モデル本来の機能を維持しながら、バックドア関連の情報を削除することを目的としている。
しかし、既存の未学習法は主にトリガーパターンの復元に重点を置いているが、毒サンプルの正しいセマンティックラベルの復元に失敗している。
この制限により、トリガーパターンとターゲットラベルの誤相関を完全に排除することができない。
この問題に対処するために、境界対向攻撃技術を活用し、2つの重要な観測結果を明らかにする。
第一に、毒のサンプルは、クリーンなサンプルに比べて決定境界からかなり離れた距離を示しており、予測を変えるためには敵の摂動を大きくする必要があることを示している。
第二に、クリーンサンプルの敵対的予測ラベルは均一に配布されているが、毒サンプルのラベルは元の正しいラベルに戻る傾向にある。
さらに, 有害試料の特徴は, 対向的摂動を加えて, 対応する清浄試料によく似ている。
これらの知見に基づいて, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワークであるBURN(AdversaRial bouNdary Analysis)によるバックドア・アンラーニングを提案する。
第1フェーズでは、BURNは逆境分析を用いて、異常な逆境境界距離に基づいて有毒なサンプルを検出し、その後、微調整のために正しいセマンティックラベルを復元する。
第2フェーズでは、元のバックドアモデルと漸進的に衛生化されたモデルとの差異をトラックするフィードバックメカニズムを採用し、データセットの洗練とモデルの浄化を導く。
複数のデータセット、アーキテクチャ、および7つの多様なバックドアアタックタイプにわたる広範な評価により、BURNはモデル本来のパフォーマンスを維持しながら、バックドアの脅威を効果的に除去することを確認した。
関連論文リスト
- Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models [12.519879298717104]
本稿では,参照フィルタとTfidf-Clustering機構に基づく,ステルスなバックドアサンプル検出手法を提案する。
2つの機械翻訳データセットと1つのQAデータセットの実験では、RFTCがバックドア検出とモデルパフォーマンスでベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-29T02:49:29Z) - Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
Invisible Backdoor Attack (IBA) を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Detecting Backdoor Attacks via Similarity in Semantic Communication Systems [3.565151496245487]
本研究は, セマンティックな類似性を利用してバックドア攻撃を検出する防衛機構を提案する。
意味的特徴空間のずれを分析し,しきい値に基づく検出フレームワークを確立することにより,有毒な試料を効果的に同定する。
論文 参考訳(メタデータ) (2025-02-06T02:22:36Z) - PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection [57.571451139201855]
予測シフトバックドア検出(英: Prediction Shift Backdoor Detection、PSBD)は、ディープニューラルネットワークにおけるバックドアサンプルを識別する新しい手法である。
PSBDは興味深い予測シフト(PS)現象によって動機付けられており、クリーンなデータに対する有害なモデルの予測は、しばしば真のラベルから別のラベルへとシフトする。
PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。
論文 参考訳(メタデータ) (2024-06-09T15:31:00Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Detecting Backdoors During the Inference Stage Based on Corruption
Robustness Consistency [33.42013309686333]
本稿では,被害者モデルのハードラベル出力のみを必要とする試験時間トリガーサンプル検出法を提案する。
私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのに、トリガーサンプルに対して不一致に実行するという興味深い観察から始まります。
大規模な実験では、最先端のディフェンスと比較すると、TeCoは異なるバックドア攻撃、データセット、モデルアーキテクチャにおいて、それらよりも優れています。
論文 参考訳(メタデータ) (2023-03-27T07:10:37Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。