論文の概要: RedHerring Attack: Testing the Reliability of Attack Detection
- arxiv url: http://arxiv.org/abs/2509.20691v1
- Date: Thu, 25 Sep 2025 02:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.669458
- Title: RedHerring Attack: Testing the Reliability of Attack Detection
- Title(参考訳): RedHerring攻撃:攻撃検出の信頼性をテストする
- Authors: Jonathan Rusert,
- Abstract要約: 我々は、RedHerringという新たなアタック設定とアタックを提案し、テストする。
RedHerringは、テキストを変更することで攻撃検出モデルを信頼できないようにする。
RedHerringは検出精度を20~71ポイントに下げることができる。
- 参考スコア(独自算出の注目度): 10.406659081400354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In response to adversarial text attacks, attack detection models have been proposed and shown to successfully identify text modified by adversaries. Attack detection models can be leveraged to provide an additional check for NLP models and give signals for human input. However, the reliability of these models has not yet been thoroughly explored. Thus, we propose and test a novel attack setting and attack, RedHerring. RedHerring aims to make attack detection models unreliable by modifying a text to cause the detection model to predict an attack, while keeping the classifier correct. This creates a tension between the classifier and detector. If a human sees that the detector is giving an ``incorrect'' prediction, but the classifier a correct one, then the human will see the detector as unreliable. We test this novel threat model on 4 datasets against 3 detectors defending 4 classifiers. We find that RedHerring is able to drop detection accuracy between 20 - 71 points, while maintaining (or improving) classifier accuracy. As an initial defense, we propose a simple confidence check which requires no retraining of the classifier or detector and increases detection accuracy greatly. This novel threat model offers new insights into how adversaries may target detection models.
- Abstract(参考訳): 敵のテキスト攻撃に対して、攻撃検出モデルが提案され、敵が修正したテキストの特定に成功した。
攻撃検出モデルは、NLPモデルのさらなるチェックと、人間の入力のための信号を与えるために利用することができる。
しかし、これらのモデルの信頼性はまだ十分に調査されていない。
そこで我々はRedHerringという新たなアタック設定とアタックを提案する。
RedHerringは、テキストを変更することによって攻撃を予測し、分類器を正しく保ちながら、攻撃検出モデルを信頼できないようにする。
これにより、分類器と検出器の間に緊張が生じる。
人間が検知器が「不正確な」予測をしていると判断するが、分類器が正しいと判断すると、人間は検出器を信頼できないと見なす。
4つの分類器を防御する3つの検出器に対して,この新たな脅威モデルをテストする。
RedHerringは検出精度を20~71ポイントまで下げることができ、分類器の精度を維持(または改善)できる。
初期防御として,分類器や検出器の再訓練を必要としない簡易な信頼性チェックを提案し,検出精度を大幅に向上させた。
この新たな脅威モデルは、敵が検出モデルをターゲットにする方法に関する新たな洞察を提供する。
関連論文リスト
- Neural Fingerprints for Adversarial Attack Detection [2.7309692684728613]
ディープラーニングモデルのよく知られた脆弱性は、敵の例に対する感受性である。
この問題に対処するために多くのアルゴリズムが提案され、一般に2つのカテゴリの1つに分類される。
我々は、攻撃者がネットワークと検出器の構成と重みを知っているホワイトボックス環境では、検出器を克服できると主張している。
この問題は、非常に優れたモデルでさえ安全性を確保するのに不十分なセキュリティアプリケーションで一般的である。
論文 参考訳(メタデータ) (2024-11-07T08:43:42Z) - Identifying Adversarially Attackable and Robust Samples [1.4213973379473654]
アドリアックは、入力サンプルに小さな、知覚不能な摂動を挿入し、ディープラーニングモデルの出力に大きな、望ましくない変化を引き起こす。
本研究は, 対人攻撃に最も影響を受けやすいサンプルを同定することを目的とした, サンプル攻撃可能性の概念を紹介する。
本研究では,未知のターゲットモデルに対する未知のデータセットにおいて,逆攻撃可能で頑健なサンプルを識別するディープラーニングベースの検出器を提案する。
論文 参考訳(メタデータ) (2023-01-30T13:58:14Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。
本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-08-25T10:41:29Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z) - Detection as Regression: Certified Object Detection by Median Smoothing [50.89591634725045]
この研究は、ランダム化平滑化による認定分類の最近の進歩によって動機付けられている。
我々は、$ell$-bounded攻撃に対するオブジェクト検出のための、最初のモデル非依存、トレーニング不要、認定された防御条件を得る。
論文 参考訳(メタデータ) (2020-07-07T18:40:19Z) - Adversarial Detection and Correction by Matching Prediction
Distributions [0.0]
この検出器は、MNISTとFashion-MNISTに対するCarini-WagnerやSLIDEのような強力な攻撃をほぼ完全に中和する。
本手法は,攻撃者がモデルと防御の両方について十分な知識を持つホワイトボックス攻撃の場合においても,なおも敵の例を検出することができることを示す。
論文 参考訳(メタデータ) (2020-02-21T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。