論文の概要: Solving Trojan Detection Competitions with Linear Weight Classification
- arxiv url: http://arxiv.org/abs/2411.03445v1
- Date: Tue, 05 Nov 2024 19:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:25:04.144219
- Title: Solving Trojan Detection Competitions with Linear Weight Classification
- Title(参考訳): 線形重み分類によるトロイの木馬検出競争の解法
- Authors: Todd Huster, Peter Lin, Razvan Stefanescu, Emmanuel Ekwedike, Ritu Chadha,
- Abstract要約: 既存のデータセットやドメインの多くで驚くほどうまく機能する検出器を導入します。
我々はこのアルゴリズムを、トロイの木馬検出ベンチマークとドメインの多種多様なセットで評価する。
- 参考スコア(独自算出の注目度): 1.24275433420322
- License:
- Abstract: Neural networks can conceal malicious Trojan backdoors that allow a trigger to covertly change the model behavior. Detecting signs of these backdoors, particularly without access to any triggered data, is the subject of ongoing research and open challenges. In one common formulation of the problem, we are given a set of clean and poisoned models and need to predict whether a given test model is clean or poisoned. In this paper, we introduce a detector that works remarkably well across many of the existing datasets and domains. It is obtained by training a binary classifier on a large number of models' weights after performing a few different pre-processing steps including feature selection and standardization, reference model weights subtraction, and model alignment prior to detection. We evaluate this algorithm on a diverse set of Trojan detection benchmarks and domains and examine the cases where the approach is most and least effective.
- Abstract(参考訳): ニューラルネットワークは悪意のあるトロイアのバックドアを隠蔽し、トリガーがモデル動作を隠蔽的に変更できるようにする。
これらのバックドアの兆候を、特にトリガーデータにアクセスせずに検出することは、現在進行中の研究とオープンな課題の主題である。
問題の一般的な定式化では、クリーンで有毒なモデルのセットが与えられ、与えられたテストモデルがクリーンか有毒かを予測する必要がある。
本稿では,既存のデータセットやドメインの多くに対して極めてよく機能する検出器を提案する。
特徴選択や標準化、参照モデル重みの減算、検出前のモデルアライメントなど、いくつかの異なる前処理ステップを実行した後、多数のモデルの重み付けに対してバイナリ分類器をトレーニングすることにより得られる。
我々は,このアルゴリズムをトロイの木馬検出ベンチマークとドメインの多種多様なセットで評価し,そのアプローチが最も効果的である場合について検討する。
関連論文リスト
- Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis [5.8634235309501435]
オブジェクト検出モデルに適したバックドアディフェンスフレームワークを提案する。
不整合を定量化し解析することにより、バックドアを検出するアルゴリズムを開発する。
最先端の2段階物体検出器を用いた実験により, バックドア除去率の90%向上が得られた。
論文 参考訳(メタデータ) (2024-09-24T12:58:35Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - TEN-GUARD: Tensor Decomposition for Backdoor Attack Detection in Deep
Neural Networks [3.489779105594534]
本稿では,ネットワークアクティベーションに適用した2つのテンソル分解法によるバックドア検出手法を提案する。
これは、複数のモデルを同時に分析する機能など、既存の検出方法と比較して、多くの利点がある。
その結果,現在の最先端手法よりも,バックドアネットワークを高精度かつ効率的に検出できることがわかった。
論文 参考訳(メタデータ) (2024-01-06T03:08:28Z) - Self-Supervised Predictive Convolutional Attentive Block for Anomaly
Detection [97.93062818228015]
本稿では,再建に基づく機能を,新たな自己監督型予測アーキテクチャビルディングブロックに統合することを提案する。
我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。
画像やビデオの異常検出のための最先端フレームワークに組み込むことで,ブロックの汎用性を実証する。
論文 参考訳(メタデータ) (2021-11-17T13:30:31Z) - Trigger Hunting with a Topological Prior for Trojan Detection [16.376009231934884]
本稿では、トロイの木馬検出の問題、すなわちトロイの木馬モデルを特定することに取り組む。
一般的なアプローチの1つはリバースエンジニアリングであり、モデルの予測を操作することによってクリーンなイメージ上のトリガを復元する。
リバースエンジニアリングアプローチの大きな課題の1つは、トリガーの巨大な検索スペースである。
多様性やトポロジカル・シンプルさといった革新的な先例を提案し、適切なトリガを見つける可能性を高めるだけでなく、見出されたトリガの品質を向上させる。
論文 参考訳(メタデータ) (2021-10-15T19:47:00Z) - Online Defense of Trojaned Models using Misattributions [18.16378666013071]
本稿では,推論時におけるディープニューラルネットワーク上のニューラルトロイの木馬検出手法を提案する。
MNIST, Fashion MNIST, German Traffic Sign Recognition Benchmark で訓練されたモデルを含む,いくつかのベンチマークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-03-29T19:53:44Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。