論文の概要: Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations
- arxiv url: http://arxiv.org/abs/2510.02319v1
- Date: Mon, 22 Sep 2025 13:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.7645
- Title: Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations
- Title(参考訳): 攻撃のモデル化:敵対的摂動の定量化によるAI生成テキストの検出
- Authors: Lekkala Sai Teja, Annepaka Yadagiri, Sangam Sai Anish, Siva Gopala Krishna Nuthakki, Partha Pakray,
- Abstract要約: 現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
- 参考スコア(独自算出の注目度): 2.7620215077666557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growth of highly advanced Large Language Models (LLMs) constitutes a huge dual-use problem, making it necessary to create dependable AI-generated text detection systems. Modern detectors are notoriously vulnerable to adversarial attacks, with paraphrasing standing out as an effective evasion technique that foils statistical detection. This paper presents a comparative study of adversarial robustness, first by quantifying the limitations of standard adversarial training and then by introducing a novel, significantly more resilient detection framework: Perturbation-Invariant Feature Engineering (PIFE), a framework that enhances detection by first transforming input text into a standardized form using a multi-stage normalization pipeline, it then quantifies the transformation's magnitude using metrics like Levenshtein distance and semantic similarity, feeding these signals directly to the classifier. We evaluate both a conventionally hardened Transformer and our PIFE-augmented model against a hierarchical taxonomy of character-, word-, and sentence-level attacks. Our findings first confirm that conventional adversarial training, while resilient to syntactic noise, fails against semantic attacks, an effect we term "semantic evasion threshold", where its True Positive Rate at a strict 1% False Positive Rate plummets to 48.8%. In stark contrast, our PIFE model, which explicitly engineers features from the discrepancy between a text and its canonical form, overcomes this limitation. It maintains a remarkable 82.6% TPR under the same conditions, effectively neutralizing the most sophisticated semantic attacks. This superior performance demonstrates that explicitly modeling perturbation artifacts, rather than merely training on them, is a more promising path toward achieving genuine robustness in the adversarial arms race.
- Abstract(参考訳): 高度に進化したLarge Language Models (LLMs) の成長は、信頼性の高いAI生成テキスト検出システムを構築する必要のある、巨大なデュアルユース問題を構成する。
現代の検出器は敵の攻撃に弱いことで悪名高い。
マルチステージ正規化パイプラインを用いて入力テキストを標準化形式に変換することによって検出を強化するフレームワークであるPerturbation-Invariant Feature Engineering (PIFE) を,Levenshtein距離や意味的類似性といった指標を用いて,変換の大きさを定量化し,それらの信号を直接分類器に供給する。
我々は,従来より強化されたトランスフォーマーとPIFE拡張モデルの両方を,文字・単語・文レベルの攻撃の階層的分類に対して評価する。
本研究は, 従来の対人訓練は, シナティックノイズに耐性があるものの, セマンティック・アタック(意味的回避しきい値, 意味的回避しきい値, 意味的回避しきい値, 意味的回避しきい値, 正の正の正のレートが厳密な1%の偽陽性率で48.8%に低下することを確認する。
対照的に、私たちのPIFEモデルは、テキストと標準形式との相違から明確にエンジニアが特徴的であり、この制限を克服しています。
82.6%のTPRを同じ条件下で維持し、最も洗練されたセマンティックアタックを効果的に中和する。
この優れたパフォーマンスは、単にトレーニングするだけでなく、摂動アーティファクトを明示的にモデル化することが、敵の武器競争において真の堅牢性を達成するためのより有望な道であることを示している。
関連論文リスト
- Assessing Representation Stability for Transformer Models [2.41710192205034]
代用テキスト攻撃はトランスフォーマーモデルに対する永続的な脅威である。
本稿では,モデル・アバーサ検出フレームワークであるRepresentation Stability (RS)を紹介する。
RSは、重要な単語がマスクされたときに、埋め込み表現がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2025-08-06T21:07:49Z) - Adversarial Activation Patching: A Framework for Detecting and Mitigating Emergent Deception in Safety-Aligned Transformers [0.0]
大規模言語モデル(LLM)は、安全のために整列し、しばしば突発的な騙し行動を示す。
本稿では,新しい機械的解釈可能性フレームワークである逆アクティベーションパッチについて紹介する。
のプロンプトからアクティベーションをソーシングすることで、脆弱性をシミュレートし、偽装率を定量化する。
論文 参考訳(メタデータ) (2025-07-12T21:29:49Z) - Unified Prompt Attack Against Text-to-Image Generation Models [30.24530622359188]
攻撃の観点からT2Iモデルのロバスト性を評価するためのフレームワークであるUPAMを提案する。
UPAMはテキストと視覚の両方に対する攻撃を統合する。
また、効率と効率性を改善するために列挙への依存を克服し、勾配ベースの最適化を可能にする。
論文 参考訳(メタデータ) (2025-02-23T03:36:18Z) - Saliency Attention and Semantic Similarity-Driven Adversarial Perturbation [0.0]
SASSP(Saliency Attention and Semantic similarity driven adversarial Perturbation)は、文脈的摂動の有効性を改善するために設計された。
提案手法は,単語選択と摂動のための3段階の戦略を取り入れたものである。
SASSPは高い攻撃成功率と低い単語摂動率を得た。
論文 参考訳(メタデータ) (2024-06-18T14:07:27Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。