論文の概要: Kill it with FIRE: On Leveraging Latent Space Directions for Runtime Backdoor Mitigation in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2602.10780v1
- Date: Wed, 11 Feb 2026 12:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.85058
- Title: Kill it with FIRE: On Leveraging Latent Space Directions for Runtime Backdoor Mitigation in Deep Neural Networks
- Title(参考訳): FIREでそれを殺す - ディープニューラルネットワークにおける実行時バックドア緩和のための遅延空間方向の活用
- Authors: Enrico Ahlers, Daniel Passon, Yannic Noller, Lars Grunske,
- Abstract要約: よく知られた脆弱性は、有毒なトレーニングデータや悪意のあるトレーニングプロセスによってニューラルネットワークに導入されたバックドアである。
提案手法はFIRE (Inference-time backdoor mitigation approach) である。
我々はトリガーを、推論機構を補正するために逆に適用できる層間の潜伏空間の方向と見なす。
- 参考スコア(独自算出の注目度): 1.9517610560768623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models are increasingly present in our everyday lives; as a result, they become targets of adversarial attackers seeking to manipulate the systems we interact with. A well-known vulnerability is a backdoor introduced into a neural network by poisoned training data or a malicious training process. Backdoors can be used to induce unwanted behavior by including a certain trigger in the input. Existing mitigations filter training data, modify the model, or perform expensive input modifications on samples. If a vulnerable model has already been deployed, however, those strategies are either ineffective or inefficient. To address this gap, we propose our inference-time backdoor mitigation approach called FIRE (Feature-space Inference-time REpair). We hypothesize that a trigger induces structured and repeatable changes in the model's internal representation. We view the trigger as directions in the latent spaces between layers that can be applied in reverse to correct the inference mechanism. Therefore, we turn the backdoored model against itself by manipulating its latent representations and moving a poisoned sample's features along the backdoor directions to neutralize the trigger. Our evaluation shows that FIRE has low computational overhead and outperforms current runtime mitigations on image benchmarks across various attacks, datasets, and network architectures.
- Abstract(参考訳): 機械学習モデルは、私たちの日常生活にますます存在しており、結果として、私たちが対話するシステムを操作しようとする敵攻撃者の標的になっている。
よく知られた脆弱性は、有毒なトレーニングデータや悪意のあるトレーニングプロセスによってニューラルネットワークに導入されたバックドアである。
バックドアは、入力に特定のトリガーを含めることで、不要な振る舞いを誘発するために使用することができる。
既存の緩和フィルタトレーニングデータ、モデルの変更、サンプルに対する高価な入力修正を実行する。
しかし、脆弱なモデルがすでにデプロイされている場合、これらの戦略は非効率または非効率である。
このギャップに対処するために、FIRE(Feature-space Inference-time Repair)と呼ばれる推論時バックドア緩和手法を提案する。
我々は、トリガーがモデルの内部表現において構造的かつ繰り返し可能な変化を引き起こすという仮説を立てる。
我々はトリガーを、推論機構を補正するために逆に適用できる層間の潜伏空間の方向と見なす。
そこで,本研究では, バックドアモデルに対して, 潜伏表現を操作し, 有害サンプルの特徴をバックドア方向に沿って移動させることにより, トリガを中和する。
評価の結果、FIREは計算オーバーヘッドが低く、様々な攻撃、データセット、ネットワークアーキテクチャのイメージベンチマークにおける現在の実行時の軽減よりも優れていた。
関連論文リスト
- Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - Backdoor Mitigation by Correcting the Distribution of Neural Activations [30.554700057079867]
バックドア(トロイジャン)攻撃はディープニューラルネットワーク(DNN)に対する敵対的攻撃の重要なタイプである
バックドア攻撃の重要な特性を解析し、バックドア・トリガー・インスタンスの内部層活性化の分布の変化を引き起こす。
本稿では,分散変化を補正し,学習後のバックドア緩和を効果的かつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-08-18T22:52:29Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Backdoor Learning Curves: Explaining Backdoor Poisoning Beyond Influence Functions [23.750285504961337]
インクリメンタルラーニングとインフルエンス関数のレンズによるバックドアラーニングのプロセスについて検討した。
その結果, (i) 学習アルゴリズムの複雑さ, (ii) トレーニングセットに注入されたバックドアサンプルの割合, (iii) バックドアトリガーのサイズと可視性など,バックドア攻撃の有効性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T08:00:48Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。