論文の概要: On the (In)feasibility of ML Backdoor Detection as an Hypothesis Testing
Problem
- arxiv url: http://arxiv.org/abs/2402.16926v1
- Date: Mon, 26 Feb 2024 11:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:02:36.920198
- Title: On the (In)feasibility of ML Backdoor Detection as an Hypothesis Testing
Problem
- Title(参考訳): 仮説テスト問題としてのMLバックドア検出の可能性について
- Authors: Georg Pichler, Marco Romanelli, Divya Prakash Manivannan, Prashanth
Krishnamurthy, Farshad Khorrami, Siddharth Garg
- Abstract要約: 機械学習システムにおけるバックドア検出問題に対する公式な統計的定義を導入する。
我々は、非常に小さなアルファベットサイズを除いて、普遍的な(敵の知らない)バックドア検出は不可能であることを示す。
我々はこの定義を,分布外検出問題のほぼ正解(PAC)学習可能性に結びつける。
- 参考スコア(独自算出の注目度): 16.980855241982187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a formal statistical definition for the problem of backdoor
detection in machine learning systems and use it to analyze the feasibility of
such problems, providing evidence for the utility and applicability of our
definition. The main contributions of this work are an impossibility result and
an achievability result for backdoor detection. We show a no-free-lunch
theorem, proving that universal (adversary-unaware) backdoor detection is
impossible, except for very small alphabet sizes. Thus, we argue, that backdoor
detection methods need to be either explicitly, or implicitly adversary-aware.
However, our work does not imply that backdoor detection cannot work in
specific scenarios, as evidenced by successful backdoor detection methods in
the scientific literature. Furthermore, we connect our definition to the
probably approximately correct (PAC) learnability of the out-of-distribution
detection problem.
- Abstract(参考訳): 本稿では,機械学習システムにおけるバックドア検出問題に対する形式的統計的定義を導入し,その実現可能性を分析し,その有用性と適用性を示す証拠を提供する。
この研究の主な貢献は、バックドア検出のための不可能性と達成可能性の結果である。
我々は、非常に小さなアルファベットサイズを除いて、普遍的な(敵対的でない)バックドア検出が不可能であることを証明し、無自由lunch定理を示す。
したがって、バックドア検出手法は明示的に、あるいは暗黙的に敵対的に認識する必要がある。
しかし,本研究は,バックドア検出法が科学的文献で成功した証拠として,特定のシナリオにおいてバックドア検出が機能しないことを示唆するものではない。
さらに,我々の定義を,分布外検出問題のほぼ正解(PAC)学習可能性に結びつける。
関連論文リスト
- Rethinking Backdoor Detection Evaluation for Language Models [45.34806299803778]
バックドア攻撃は、公開された言語モデルに依存する実践者にとって大きなセキュリティリスクをもたらす。
バックドア検出方法は、リリースされたモデルにバックドアが含まれているかどうかを検出することを目的としている。
既存のバックドア検出手法は標準ベンチマークでバックドアモデルを検出するのに高い精度を持っているが、野生のバックドアを堅牢に識別できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-08-31T09:19:39Z) - Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits [1.1118610055902116]
自己回帰型トランスフォーマーモデルに新しいバックドアのクラスを導入する。
無効性により、ディフェンダーがバックドアを起動するのを防ぎ、デプロイ前に評価や検出が不可能になる。
我々は, 暗号技術を用いることで, 新規な構築が不必要であるだけでなく, 良好な堅牢性を有することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:55:41Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - An anomaly detection approach for backdoored neural networks: face
recognition as a case study [77.92020418343022]
本稿では,異常検出の原理に基づく新しいバックドアネットワーク検出手法を提案する。
バックドアネットワークの新たなデータセット上で本手法を検証し,完全スコアで検出可能性について報告する。
論文 参考訳(メタデータ) (2022-08-22T12:14:13Z) - Planting Undetectable Backdoors in Machine Learning Models [14.592078676445201]
悪意ある学習者が検出不能なバックドアを分類器に組み込む方法を示す。
適切な"バックドアキー"がなければ、そのメカニズムは隠され、計算に拘束されたオブザーバによって検出できない。
検出不能なバックドアを植え付けるための2つのフレームワークを示す。
論文 参考訳(メタデータ) (2022-04-14T13:55:21Z) - AEVA: Black-box Backdoor Detection Using Adversarial Extreme Value
Analysis [23.184335982913325]
ブラックボックスのハードラベルバックドア検出問題に対処する。
本研究では, バックドア検出の目的は, 逆方向の目的によって拘束されていることを示す。
ブラックボックスニューラルネットワークのバックドア検出のための対向的極値解析を提案する。
論文 参考訳(メタデータ) (2021-10-28T04:36:48Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。