論文の概要: StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors
- arxiv url: http://arxiv.org/abs/2602.08934v1
- Date: Mon, 09 Feb 2026 17:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.399653
- Title: StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors
- Title(参考訳): StealthRL:AIテキスト検出器の多要素侵入に対する強化学習パラフレーズアタック
- Authors: Suraj Ranganath, Atharv Ramesh,
- Abstract要約: StealthRLはAIテキスト検出のための強化学習フレームワークである。
我々は,現実的な対向条件下で,マルチ検出器アンサンブルに対してパラフレーズポリシーを訓練する。
StealthRLはゼロに近い検出を実現し、平均AUROCを0.74から0.27に減らし、99.9%の攻撃成功率を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-text detectors face a critical robustness challenge: adversarial paraphrasing attacks that preserve semantics while evading detection. We introduce StealthRL, a reinforcement learning framework that stress-tests detector robustness under realistic adversarial conditions. StealthRL trains a paraphrase policy against a multi-detector ensemble using Group Relative Policy Optimization (GRPO) with LoRA adapters on Qwen3-4B, optimizing a composite reward that balances detector evasion with semantic preservation. We evaluate six attack settings (M0-M5) against three detector families (RoBERTa, FastDetectGPT, and Binoculars) at the security-relevant 1% false positive rate operating point. StealthRL achieves near-zero detection (0.001 mean TPR@1%FPR), reduces mean AUROC from 0.74 to 0.27, and attains a 99.9% attack success rate. Critically, attacks transfer to a held-out detector family not seen during training, revealing shared architectural vulnerabilities rather than detector-specific brittleness. We additionally conduct LLM-based quality evaluation via Likert scoring, analyze detector score distributions to explain why evasion succeeds, and provide per-detector AUROC with bootstrap confidence intervals. Our results expose significant robustness gaps in current AI-text detection and establish StealthRL as a principled adversarial evaluation protocol. Code and evaluation pipeline are publicly available at https://github.com/suraj-ranganath/StealthRL.
- Abstract(参考訳): AIテキスト検出は、検出を回避しながらセマンティクスを保存する敵のパラフレーズ攻撃という、重大な堅牢性に直面する。
本稿では,現実的な対向条件下でのロバスト性を検出するための強化学習フレームワークであるStealthRLを紹介する。
StealthRL は、Qwen3-4B 上の LoRA アダプタと Group Relative Policy Optimization (GRPO) を用いて、マルチ検出器アンサンブルに対してパラフレーズポリシーを訓練し、検出回避と意味保存のバランスをとる複合報酬を最適化する。
セキュリティ関連である1%偽陽性率動作点において,RoBERTa,FastDetectGPT,Binocularsの3つの検出器群に対する6つの攻撃条件(M0-M5)を評価した。
StealthRLはゼロに近い検出(0.001平均TPR@1%FPR)を達成し、平均AUROCを0.74から0.27に減らし、99.9%の攻撃成功率を達成した。
重要なことは、訓練中に見つからない保持された検出器ファミリーへの攻撃は、検出器固有の脆さではなく、共有アーキテクチャ上の脆弱性を明らかにする。
さらに,LLMによる品質評価をLikertスコアを用いて行い,検出値の分布を分析して,なぜ回避が成功するのかを説明し,ブートストラップ信頼区間を有する検出者ごとのAUROCを提供する。
その結果、現在のAIテキスト検出において、大きなロバスト性ギャップが明らかとなり、StealthRLを原則的対角評価プロトコルとして確立した。
コードと評価パイプラインはhttps://github.com/suraj-ranganath/StealthRLで公開されている。
関連論文リスト
- Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text [47.84655968112988]
本稿では、AI生成したテキストを普遍的に人間化し、検出をより効果的に回避する、トレーニング不要な攻撃フレームワークであるAdversarial Paraphrasingを紹介する。
我々の攻撃は広範囲に効果があり、複数の検知システムにまたがって非常に伝達可能である。
論文 参考訳(メタデータ) (2025-06-08T05:15:01Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Take Fake as Real: Realistic-like Robust Black-box Adversarial Attack to Evade AIGC Detection [4.269334070603315]
本稿では,後処理の融合最適化を用いた現実的なロバストブラックボックス攻撃(R$2$BA)を提案する。
R$2$BAは優れた抗検出性能,可視性,GANおよび拡散型症例の強い堅牢性を示す。
論文 参考訳(メタデータ) (2024-12-09T18:16:50Z) - Let the Noise Speak: Harnessing Noise for a Unified Defense Against Adversarial and Backdoor Attacks [31.291700348439175]
機械学習に対する悪意のあるデータ操作攻撃は、安全クリティカルなアプリケーションにおける信頼性を損なう。
再建型侵入検知システムであるNoiSecを提案する。
NoiSecは、テスト入力からノイズを取り除き、ノイズから基礎となる特徴を抽出し、それらを活用して、システマティックな悪意のある操作を認識する。
論文 参考訳(メタデータ) (2024-06-18T21:44:51Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。