論文の概要: RTD-Guard: A Black-Box Textual Adversarial Detection Framework via Replacement Token Detection
- arxiv url: http://arxiv.org/abs/2603.12582v1
- Date: Fri, 13 Mar 2026 02:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.853956
- Title: RTD-Guard: A Black-Box Textual Adversarial Detection Framework via Replacement Token Detection
- Title(参考訳): RTD-Guard:置換トークン検出によるブラックボックステキスト逆検出フレームワーク
- Authors: He Zhu, Yanshu Li, Wen Liu, Haitian Yang,
- Abstract要約: 本稿では,テキストの逆転を検知する新しいブラックボックスフレームワークRTD-Guardを紹介する。
我々の重要な洞察は、敵攻撃における単語置換摂動は、置換トークン検出識別器が識別するために事前訓練されている「置換トークン」によく似ているということである。
プロセス全体では、敵データ、モデルチューニング、内部モデルアクセスは必要とせず、2つのブラックボックスクエリのみを使用する。
- 参考スコア(独自算出の注目度): 9.898508403320438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual adversarial attacks pose a serious security threat to Natural Language Processing (NLP) systems by introducing imperceptible perturbations that mislead deep learning models. While adversarial example detection offers a lightweight alternative to robust training, existing methods typically rely on prior knowledge of attacks, white-box access to the victim model, or numerous queries, which severely limits their practical deployment. This paper introduces RTD-Guard, a novel black-box framework for detecting textual adversarial examples. Our key insight is that word-substitution perturbations in adversarial attacks closely resemble the "replaced tokens" that a Replaced Token Detection (RTD) discriminator is pre-trained to identify. Leveraging this, RTD-Guard employs an off-the-shelf RTD discriminator-without fine-tuning-to localize suspicious tokens, masks them, and detects adversarial examples by observing the prediction confidence shift of the victim model before and after intervention. The entire process requires no adversarial data, model tuning, or internal model access, and uses only two black-box queries. Comprehensive experiments on multiple benchmark datasets demonstrate that RTD-Guard effectively detects adversarial texts generated by diverse state-of-the-art attack methods. It surpasses existing detection baselines across multiple metrics, offering a highly efficient, practical, and resource-light defense mechanism-particularly suited for real-world deployment in resource-constrained or privacy-sensitive environments.
- Abstract(参考訳): テキストの敵対的攻撃は、ディープラーニングモデルを誤解させる知覚できない摂動を導入することによって、自然言語処理(NLP)システムに深刻なセキュリティ上の脅威をもたらす。
敵のサンプル検出は、堅牢なトレーニングに代わる軽量な代替手段を提供するが、既存のメソッドは通常、攻撃の事前知識、被害者モデルへのホワイトボックスアクセス、あるいは多数のクエリに頼っている。
本稿では,テキストの逆転を検知する新しいブラックボックスフレームワークRTD-Guardを紹介する。
我々の重要な洞察は、敵攻撃における単語置換摂動は、置換トークン検出(RTD)識別器が事前に訓練されている「置換トークン」によく似ていることである。
これを利用して、RTD-Guardは不審なトークンを局所化し、マスクし、介入前後に被害者モデルの予測信頼性シフトを観察して敵の例を検出するために、既製のRTD識別器を採用している。
プロセス全体では、敵データ、モデルチューニング、内部モデルアクセスは必要とせず、2つのブラックボックスクエリのみを使用する。
複数のベンチマークデータセットに関する総合的な実験により、RTD-Guardは様々な最先端攻撃手法によって生成される敵のテキストを効果的に検出することを示した。
既存の検出ベースラインを越え、リソース制約やプライバシに敏感な環境において、特に現実世界のデプロイに適した、効率的で実用的なリソースライト防御メカニズムを提供する。
関連論文リスト
- Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - MirGuard: Towards a Robust Provenance-based Intrusion Detection System Against Graph Manipulation Attacks [13.92935628832727]
MirGuardは、ロジック対応のマルチビュー拡張とコントラスト表現学習を組み合わせた異常検出フレームワークである。
MirGuardは、さまざまなグラフ操作攻撃に対して、最先端の検出器の堅牢性を大幅に上回っている。
論文 参考訳(メタデータ) (2025-08-14T13:35:51Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [70.77570343385928]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Towards Black-box Adversarial Example Detection: A Data
Reconstruction-based Method [9.857570123016213]
ブラックボックス攻撃はより現実的な脅威であり、様々なブラックボックス敵の訓練ベースの防御方法につながっている。
BAD問題に対処するために,データ再構成に基づく逆例検出手法を提案する。
論文 参考訳(メタデータ) (2023-06-03T06:34:17Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z) - Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。
本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-08-25T10:41:29Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Selective and Features based Adversarial Example Detection [12.443388374869745]
Deep Neural Networks (DNN) を中継するセキュリティに敏感なアプリケーションは、Adversarial Examples (AE) を生成するために作られた小さな摂動に弱い。
本稿では,マルチタスク学習環境における選択的予測,モデルレイヤの出力処理,知識伝達概念を用いた教師なし検出機構を提案する。
実験の結果,提案手法は,ホワイトボックスシナリオにおけるテスト攻撃に対する最先端手法と同等の結果を得られ,ブラックボックスとグレーボックスシナリオの精度が向上した。
論文 参考訳(メタデータ) (2021-03-09T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。