論文の概要: ArcGen: Generalizing Neural Backdoor Detection Across Diverse Architectures
- arxiv url: http://arxiv.org/abs/2512.19730v1
- Date: Wed, 17 Dec 2025 06:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.602987
- Title: ArcGen: Generalizing Neural Backdoor Detection Across Diverse Architectures
- Title(参考訳): ArcGen: さまざまなアーキテクチャにわたるニューラルネットワークのバックドア検出を一般化
- Authors: Zhonghao Yang, Cheng Luo, Daojing He, Yiming Li, Yu Li,
- Abstract要約: バックドア攻撃は、ディープラーニングモデルのセキュリティと信頼性に重大な脅威をもたらす。
有望なアプローチの1つは、ターゲットモデルから機能を抽出し、これらの機能をバックドア検出に使用することを学ぶことである。
我々はArcGenと呼ばれる新しいブラックボックスニューラルバックドア検出手法を提案する。
- 参考スコア(独自算出の注目度): 27.55898712203191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks pose a significant threat to the security and reliability of deep learning models. To mitigate such attacks, one promising approach is to learn to extract features from the target model and use these features for backdoor detection. However, we discover that existing learning-based neural backdoor detection methods do not generalize well to new architectures not seen during the learning phase. In this paper, we analyze the root cause of this issue and propose a novel black-box neural backdoor detection method called ArcGen. Our method aims to obtain architecture-invariant model features, i.e., aligned features, for effective backdoor detection. Specifically, in contrast to existing methods directly using model outputs as model features, we introduce an additional alignment layer in the feature extraction function to further process these features. This reduces the direct influence of architecture information on the features. Then, we design two alignment losses to train the feature extraction function. These losses explicitly require that features from models with similar backdoor behaviors but different architectures are aligned at both the distribution and sample levels. With these techniques, our method demonstrates up to 42.5% improvements in detection performance (e.g., AUC) on unseen model architectures. This is based on a large-scale evaluation involving 16,896 models trained on diverse datasets, subjected to various backdoor attacks, and utilizing different model architectures. Our code is available at https://github.com/SeRAlab/ArcGen.
- Abstract(参考訳): バックドア攻撃は、ディープラーニングモデルのセキュリティと信頼性に重大な脅威をもたらす。
このような攻撃を緩和するために、ある有望なアプローチは、ターゲットモデルから特徴を抽出し、これらの特徴をバックドア検出に使用することを学ぶことである。
しかし,既存の学習に基づくニューラルバックドア検出手法は,学習段階では見られない新しいアーキテクチャにうまく適用できないことがわかった。
本稿では,この問題の根本原因を分析し,ArcGenと呼ばれる新しいブラックボックス型ニューラルネットワークバックドア検出法を提案する。
提案手法は,効率的なバックドア検出のためのアーキテクチャ不変モデル特徴,すなわちアライメント機能を得ることを目的としている。
具体的には、モデルの特徴としてモデル出力を直接使用する既存の手法とは対照的に、これらの特徴を更に処理するために、特徴抽出関数にアライメント層を導入する。
これにより、アーキテクチャ情報による機能への直接的な影響が軽減される。
そして,特徴抽出関数を訓練するために2つのアライメント損失を設計する。
これらの損失は、類似したバックドアの振る舞いを持つモデルの特徴を明示的に要求するが、異なるアーキテクチャは分散レベルとサンプルレベルの両方で一致している。
これらの手法により,本手法は未知のモデルアーキテクチャにおける検出性能(例:AUC)を最大42.5%向上させる。
これは、さまざまなデータセットでトレーニングされた16,896モデルによる大規模な評価に基づいており、さまざまなバックドア攻撃を受け、異なるモデルアーキテクチャを利用する。
私たちのコードはhttps://github.com/SeRAlab/ArcGen.comから入手可能です。
関連論文リスト
- Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - OCGEC: One-class Graph Embedding Classification for DNN Backdoor Detection [18.11795712499763]
本研究では,一クラスグラフ埋め込み分類(OCGEC)と呼ばれる新しい一クラス分類フレームワークを提案する。
OCGECは、少量のクリーンデータだけでモデルレベルのバックドア検出にGNNを使用する。
他のベースラインと比較して、AUCのスコアは、多くのタスクで98%以上である。
論文 参考訳(メタデータ) (2023-12-04T02:48:40Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z) - Exposing Backdoors in Robust Machine Learning Models [0.5672132510411463]
逆向きに堅牢なモデルがバックドア攻撃の影響を受けやすいことを示す。
バックドアはそのようなモデルの 特徴表現に反映されます
この観測は、AEGISと呼ばれる検出技術を用いて、バックドア感染モデルを検出するために利用される。
論文 参考訳(メタデータ) (2020-02-25T04:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。