論文の概要: Detecting Semantic Backdoors in a Mystery Shopping Scenario
- arxiv url: http://arxiv.org/abs/2601.03805v1
- Date: Wed, 07 Jan 2026 11:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.478819
- Title: Detecting Semantic Backdoors in a Mystery Shopping Scenario
- Title(参考訳): 謎のショッピングシナリオにおけるセマンティックバックドアの検出
- Authors: Arpad Berta, Gabor Danner, Istvan Hegedus, Mark Jelasity,
- Abstract要約: 分類モデルにおけるセマンティックバックドアの検出問題に対処する。
クリーントレーニングデータセットとモデルのトレーニングレシピが共に知られていることを前提として,参照モデルプールを提案する。
我々はモデル距離を計算するための様々なアプローチを実験的に分析し、また、プロバイダが検出を避けるためにアダプティブアタックを実行するシナリオをテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting semantic backdoors in classification models--where some classes can be activated by certain natural, but out-of-distribution inputs--is an important problem that has received relatively little attention. Semantic backdoors are significantly harder to detect than backdoors that are based on trigger patterns due to the lack of such clearly identifiable patterns. We tackle this problem under the assumption that the clean training dataset and the training recipe of the model are both known. These assumptions are motivated by a consumer protection scenario, in which the responsible authority performs mystery shopping to test a machine learning service provider. In this scenario, the authority uses the provider's resources and tools to train a model on a given dataset and tests whether the provider included a backdoor. In our proposed approach, the authority creates a reference model pool by training a small number of clean and poisoned models using trusted infrastructure, and calibrates a model distance threshold to identify clean models. We propose and experimentally analyze a number of approaches to compute model distances and we also test a scenario where the provider performs an adaptive attack to avoid detection. The most reliable method is based on requesting adversarial training from the provider. The model distance is best measured using a set of input samples generated by inverting the models in such a way as to maximize the distance from clean samples. With these settings, our method can often completely separate clean and poisoned models, and it proves to be superior to state-of-the-art backdoor detectors as well.
- Abstract(参考訳): 分類モデルにおけるセマンティックバックドアの検出 - あるクラスが特定の自然によって活性化されるが、分布外入力 - は、比較的ほとんど注目されていない重要な問題である。
セマンティックなバックドアは、明らかに識別可能なパターンが欠如しているため、トリガーパターンに基づくバックドアよりも検出が極めて困難である。
クリーンなトレーニングデータセットとモデルのトレーニングレシピの両方が知られていると仮定して,この問題に対処する。
これらの仮定は、責任ある権威者がミステリーショッピングを行い、機械学習サービスプロバイダをテストする消費者保護シナリオによって動機付けられている。
このシナリオでは、当局はプロバイダのリソースとツールを使用して、所定のデータセット上でモデルをトレーニングし、プロバイダがバックドアを含むかどうかをテストする。
提案手法では,信頼されたインフラを用いて少数のクリーンモデルと有毒モデルを訓練し,クリーンモデルを特定するためのモデル距離閾値を校正することで,参照モデルプールを作成する。
我々は,モデル距離を計算するための多くのアプローチを提案し,実験的に分析し,また,検出を避けるために,プロバイダが適応攻撃を行うシナリオを検証した。
最も信頼性の高い方法は、プロバイダから敵の訓練を要求することに基づいている。
モデル距離は、クリーンサンプルからの距離を最大化するためにモデルを反転させて生成された一連の入力サンプルを用いて最もよく測定される。
これらの設定により、クリーンで有毒なモデルを完全に分離できることが多く、最先端のバックドア検出器よりも優れていることが証明される。
関連論文リスト
- Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Solving Trojan Detection Competitions with Linear Weight Classification [1.24275433420322]
既存のデータセットやドメインの多くで驚くほどうまく機能する検出器を導入します。
我々はこのアルゴリズムを、トロイの木馬検出ベンチマークとドメインの多種多様なセットで評価する。
論文 参考訳(メタデータ) (2024-11-05T19:00:34Z) - Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis [5.8634235309501435]
オブジェクト検出モデルに適したバックドアディフェンスフレームワークを提案する。
不整合を定量化し解析することにより、バックドアを検出するアルゴリズムを開発する。
最先端の2段階物体検出器を用いた実験により, バックドア除去率の90%向上が得られた。
論文 参考訳(メタデータ) (2024-09-24T12:58:35Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。