論文の概要: Fight Poison with Poison: Enhancing Robustness in Few-shot Machine-Generated Text Detection with Adversarial Training
- arxiv url: http://arxiv.org/abs/2605.02374v1
- Date: Mon, 04 May 2026 09:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.211906
- Title: Fight Poison with Poison: Enhancing Robustness in Few-shot Machine-Generated Text Detection with Adversarial Training
- Title(参考訳): ポゾンと戦う: 対人訓練による数発の機械によるテキスト検出におけるロバスト性向上
- Authors: Wenjing Duan, Qi Zhou, Yuanfan Li,
- Abstract要約: 提案するRAG-GuidEd攻撃器は、ストラストショット検出器(REACT)を駆動する。
REACTは、人間化指向のアタッカーとターゲット検出器を結合する。
我々は、REACTが8つの最先端検出器に対して平均F1を4.95ポイント改善することを示す。
- 参考スコア(独自算出の注目度): 3.427574505782467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine-generated text (MGT) detection is critical for regulating online information ecosystems, yet existing detectors often underperform in few-shot settings and remain vulnerable to adversarial, humanizing attacks. To build accurate and robust detectors under limited supervision, we adopt a threat-modeling perspective and study detector vulnerabilities from an attacker's viewpoint under an output-only black-box setting. Motivated by this perspective, we propose RAG-GuidEd Attacker Strengthens ConTrastive Few-shot Detector (REACT), an adversarial training framework that improves both few-shot detection performance and robustness against attacks. REACT couples a humanization-oriented attacker with a target detector: the attacker leverages retrieval-augmented generation (RAG) to craft highly human-like adversarial examples to evade detection, while the detector learns from these adversaries with a contrastive objective to stabilize few-shot representation learning and enhance robustness. We alternately update the attacker and the detector to enable their co-evolution. Experiments on 4 datasets with 4 shot sizes and 3 random seeds show that REACT improves average detection F1 by 4.95 points over 8 state-of-the-art (SOTA) detectors and reduces the average attack success rate (ASR) under 4 strong attacks by 3.66 percentage points.
- Abstract(参考訳): 機械生成テキスト(MGT)検出はオンライン情報エコシステムの制御に重要であるが、既存の検出器は、数ショットの環境では性能が劣り、敵の人為的攻撃に弱いままである。
限られた監視下で正確で堅牢な検出器を構築するために、脅威モデリングの視点を採用し、攻撃者の視点からブラックボックス設定で検出脆弱性を研究する。
この観点から,RAG-GuidEd攻撃者強化コントラスト型Few-shot Detector (REACT) を提案する。
攻撃者は、検索強化世代(RAG)を活用して、高い人間的な敵の例を作成して検出を回避し、検出器は、これらの敵から対照的な目的で学習し、少数ショットの表現学習を安定化し、堅牢性を高める。
我々は攻撃者と検知器を交互に更新し、共同進化を可能にする。
4つのショットサイズと3つのランダムシードを持つ4つのデータセットの実験では、REACTは8つの最先端(SOTA)検出器で平均F1を4.95ポイント改善し、4つの強力な攻撃で平均攻撃成功率(ASR)を3.66ポイント削減している。
関連論文リスト
- Fragile Reconstruction: Adversarial Vulnerability of Reconstruction-Based Detectors for Diffusion-Generated Images [32.470971087318695]
本研究は,4つの異なる生成バックボーンモデルにおける3つの代表検出器の対向ロバスト性について,系統的評価を行った。
我々は、ホワイトボックスシナリオにおける敵攻撃を構築し、十分に訓練された全ての検出器の性能を低下させる。
また、ある検出器に対する攻撃を他の検出器に転送することもでき、検出器に対する敵攻撃もブラックボックスの設定で構築できることを示す。
論文 参考訳(メタデータ) (2026-04-14T14:17:51Z) - DisPatch: Disarming Adversarial Patches in Object Detection with Diffusion Models [8.800216228212824]
最先端のオブジェクト検出器はいまだに敵のパッチ攻撃に弱い。
オブジェクト検出のための最初の拡散型防御フレームワークであるDisdisを紹介する。
DISは、隠蔽攻撃と攻撃生成の両方において、最先端の防御を一貫して上回る。
論文 参考訳(メタデータ) (2025-09-04T18:20:36Z) - Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training [13.239171999837287]
我々は、GREedy Adversary Promoted DefendER(GREATER)という、堅牢なMGT検出器をトレーニングするための対角的フレームワークを導入する。
テキスト摂動10戦略と6対逆攻撃による実験結果から, GREATER-DはSOTA防御法と比較して攻撃成功率(ASR)を0.67%削減することがわかった。
論文 参考訳(メタデータ) (2025-02-18T10:48:53Z) - Fortify the Guardian, Not the Treasure: Resilient Adversarial Detectors [0.0]
アダプティブアタックとは、攻撃者が防御を意識し、その戦略を適応させる攻撃である。
提案手法は, クリーンな精度を損なうことなく, 敵の訓練を活用して攻撃を検知する能力を強化する。
CIFAR-10とSVHNデータセットの実験的評価により,提案アルゴリズムは,適応的敵攻撃を正確に識別する検出器の能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-04-18T12:13:09Z) - A Comprehensive Study of the Robustness for LiDAR-based 3D Object
Detectors against Adversarial Attacks [84.10546708708554]
3Dオブジェクト検出器は、セキュリティクリティカルなタスクにおいてますます重要になっている。
敵の攻撃に対する強固さを理解することが不可欠である。
本稿では,LiDARをベースとした3次元検出器の対角攻撃時のロバスト性評価と解析を行った。
論文 参考訳(メタデータ) (2022-12-20T13:09:58Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Investigating Robustness of Adversarial Samples Detection for Automatic
Speaker Verification [78.51092318750102]
本研究は,ASVシステムに対して,別個の検出ネットワークによる敵攻撃から防御することを提案する。
VGGライクな二分分類検出器を導入し、対向サンプルの検出に有効であることが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。