論文の概要: Improving the Sensitivity of Backdoor Detectors via Class Subspace Orthogonalization
- arxiv url: http://arxiv.org/abs/2512.08129v1
- Date: Tue, 09 Dec 2025 00:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.763869
- Title: Improving the Sensitivity of Backdoor Detectors via Class Subspace Orthogonalization
- Title(参考訳): クラス空間直交化によるバックドア検出器の感度向上
- Authors: Guangmingmei Yang, David J. Miller, George Kesidis,
- Abstract要約: 訓練後のバックドア検出手法の多くは、攻撃対象のクラスに対する極端な外れ値検出統計を示す攻撃モデルに依存している。
本稿では,あるクラスに対する検出統計量を最適化しながら,固有の特徴を抑えることを提案する。
このプラグイン・アンド・プレイアプローチであるClass Subspace Orthogonalization (CSO) をダブし、複雑なラベルと適応的な攻撃に対して評価する。
- 参考スコア(独自算出の注目度): 8.097232848713086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most post-training backdoor detection methods rely on attacked models exhibiting extreme outlier detection statistics for the target class of an attack, compared to non-target classes. However, these approaches may fail: (1) when some (non-target) classes are easily discriminable from all others, in which case they may naturally achieve extreme detection statistics (e.g., decision confidence); and (2) when the backdoor is subtle, i.e., with its features weak relative to intrinsic class-discriminative features. A key observation is that the backdoor target class has contributions to its detection statistic from both the backdoor trigger and from its intrinsic features, whereas non-target classes only have contributions from their intrinsic features. To achieve more sensitive detectors, we thus propose to suppress intrinsic features while optimizing the detection statistic for a given class. For non-target classes, such suppression will drastically reduce the achievable statistic, whereas for the target class the (significant) contribution from the backdoor trigger remains. In practice, we formulate a constrained optimization problem, leveraging a small set of clean examples from a given class, and optimizing the detection statistic while orthogonalizing with respect to the class's intrinsic features. We dub this plug-and-play approach Class Subspace Orthogonalization (CSO) and assess it against challenging mixed-label and adaptive attacks.
- Abstract(参考訳): 訓練後のバックドア検出手法の多くは、攻撃対象のクラスに対して極端に異常な検出統計を示す攻撃モデルに依存している。
しかし、これらのアプローチは失敗する可能性がある:(1) ある(対象でない)クラスが他と容易に区別できる場合、その場合、極度の検出統計(例えば、決定の信頼)を自然に達成できる場合、(2)バックドアが微妙な場合、すなわち、その特徴が固有のクラス識別の特徴に対して弱い場合。
重要な観察は、バックドアターゲットクラスが、バックドアトリガーと固有の特徴の両方から検出統計に寄与しているのに対して、非ターゲットクラスは固有の特徴からのみ貢献していることである。
より高感度な検出器を実現するため,各クラスに対する検出統計量を最適化し,本質的な特徴を抑えることを提案する。
非ターゲットクラスでは、そのような抑制は達成可能な統計を劇的に減少させ、一方、ターゲットクラスでは、バックドアトリガーからの(重要な)貢献が残る。
実際に,制約付き最適化問題を定式化し,クラス固有の特徴に対して直交しながら検出統計を最適化する。
このプラグイン・アンド・プレイアプローチであるClass Subspace Orthogonalization (CSO) をダブし、複雑なラベルと適応的な攻撃に対して評価する。
関連論文リスト
- Robust Backdoor Removal by Reconstructing Trigger-Activated Changes in Latent Representation [2.7017997039883923]
既存の防御は、しばしばトリガー活性化変化(TAC)に基づくバックドアニューロンの同定と除去を試みる
本稿では,潜在表現におけるTAC値を正確に再構成して,新たなバックドア除去手法を提案する。
次に、統計的に小さな摂動ノルムを検知して毒類を同定し、微調整で毒類の摂動を利用してバックドアを除去する。
論文 参考訳(メタデータ) (2025-11-12T03:44:36Z) - Backdooring Outlier Detection Methods: A Novel Attack Approach [2.19238269573727]
外乱検出は、重要な現実世界のアプリケーションに分類器を配置するのに不可欠である。
本稿では,アウトリア検出タスクをターゲットとした新しいバックドアアタックであるBATODを提案する。
論文 参考訳(メタデータ) (2024-12-06T13:03:22Z) - A Large-scale Multiple-objective Method for Black-box Attack against
Object Detection [70.00150794625053]
我々は、真正の確率を最小化し、偽正の確率を最大化し、より多くの偽正の物体が新しい真正の有界箱を作らないようにする。
我々は、GARSDCと呼ばれるランダム・サブセット選択とディバイド・アンド・コンカーによる標準的な遺伝的アルゴリズムを拡張し、効率を大幅に改善する。
最先端攻撃法と比較して、GARSDCはmAPでは平均12.0、広範囲な実験ではクエリでは約1000倍減少する。
論文 参考訳(メタデータ) (2022-09-16T08:36:42Z) - Unreasonable Effectiveness of Last Hidden Layer Activations [0.5156484100374058]
本研究では, 高い温度値を持つモデルの出力層で広く知られているアクティベーション関数を用いることで, 標的および標的外攻撃事例の勾配をゼロにする効果が示された。
CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2022-02-15T12:02:59Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。
本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-08-25T10:41:29Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。