論文の概要: Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text
- arxiv url: http://arxiv.org/abs/2506.07001v1
- Date: Sun, 08 Jun 2025 05:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.614651
- Title: Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text
- Title(参考訳): AI生成テキストを人間化するためのユニバーサルアタック
- Authors: Yize Cheng, Vinu Sankar Sadasivan, Mehrdad Saberi, Shoumik Saha, Soheil Feizi,
- Abstract要約: 本稿では、AI生成したテキストを普遍的に人間化し、検出をより効果的に回避する、トレーニング不要な攻撃フレームワークであるAdversarial Paraphrasingを紹介する。
我々の攻撃は広範囲に効果があり、複数の検知システムにまたがって非常に伝達可能である。
- 参考スコア(独自算出の注目度): 42.70026220176376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing capabilities of Large Language Models (LLMs) have raised concerns about their misuse in AI-generated plagiarism and social engineering. While various AI-generated text detectors have been proposed to mitigate these risks, many remain vulnerable to simple evasion techniques such as paraphrasing. However, recent detectors have shown greater robustness against such basic attacks. In this work, we introduce Adversarial Paraphrasing, a training-free attack framework that universally humanizes any AI-generated text to evade detection more effectively. Our approach leverages an off-the-shelf instruction-following LLM to paraphrase AI-generated content under the guidance of an AI text detector, producing adversarial examples that are specifically optimized to bypass detection. Extensive experiments show that our attack is both broadly effective and highly transferable across several detection systems. For instance, compared to simple paraphrasing attack--which, ironically, increases the true positive at 1% false positive (T@1%F) by 8.57% on RADAR and 15.03% on Fast-DetectGPT--adversarial paraphrasing, guided by OpenAI-RoBERTa-Large, reduces T@1%F by 64.49% on RADAR and a striking 98.96% on Fast-DetectGPT. Across a diverse set of detectors--including neural network-based, watermark-based, and zero-shot approaches--our attack achieves an average T@1%F reduction of 87.88% under the guidance of OpenAI-RoBERTa-Large. We also analyze the tradeoff between text quality and attack success to find that our method can significantly reduce detection rates, with mostly a slight degradation in text quality. Our adversarial setup highlights the need for more robust and resilient detection strategies in the light of increasingly sophisticated evasion techniques.
- Abstract(参考訳): LLM(Large Language Models)の能力の増大は、AIが生成するプラジャリズムと社会工学の誤用に対する懸念を引き起こしている。
これらのリスクを軽減するために様々なAI生成テキスト検出器が提案されているが、その多くはパラフレージングのような単純な回避技術に弱いままである。
しかし、最近の検出器はこのような基本的な攻撃に対して強い堅牢性を示している。
本稿では,AI生成したテキストを普遍的に人間化し,検出をより効果的に回避する,トレーニング不要な攻撃フレームワークであるAdversarial Paraphrasingを紹介する。
提案手法では,AIテキスト検出装置の指導の下,AI生成したコンテンツを表現するために,既製の命令追従 LLM を利用して,バイパス検出に特化して最適化された逆例を生成する。
大規模な実験により、我々の攻撃は広範囲に効果があり、複数の検知システムにまたがって非常に伝達可能であることが明らかとなった。
例えば、単純なパラフレーズ攻撃(皮肉なことに、1%の偽陽性(T@1%F)をRADARで8.57%、Fast-DetectGPTで15.03%増加させ、OpenAI-RoBERTa-Largeでガイドされ、T@1%Fで64.49%減少し、Fast-DetectGPTで98.96%減少させる。
OpenAI-RoBERTa-Largeの指導の下で、ニューラルネットワーク、透かしベース、ゼロショットアプローチを含む多様な検出器セット全体で、我々の攻撃は平均T@1%Fの87.88%の減少を達成する。
また,テキスト品質と攻撃成功のトレードオフを分析し,本手法が検出率を大幅に低減し,テキスト品質の低下がほとんどであることを示す。
我々の敵対的な設定は、ますます高度な回避技術に照らして、より堅牢でレジリエントな検出戦略の必要性を強調します。
関連論文リスト
- AuthorMist: Evading AI Text Detectors with Reinforcement Learning [4.806579822134391]
AuthorMistは、AI生成したテキストを人間ライクな文章に変換する、新しい強化学習ベースのシステムだ。
AuthorMistは,本来の意味を保ちながら,AI生成テキストの検出性を効果的に低減することを示す。
論文 参考訳(メタデータ) (2025-03-10T12:41:05Z) - A Practical Examination of AI-Generated Text Detectors for Large Language Models [25.919278893876193]
機械生成コンテンツ検出器は、様々な条件や言語モデルからそのようなテキストを識別する。
本稿では、これらの主張を、これらの検出器がこれまで遭遇していなかった領域、データセット、モデルにおいて、いくつかの一般的な検出器を評価することによって、批判的に評価する。
論文 参考訳(メタデータ) (2024-12-06T15:56:11Z) - RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文 参考訳(メタデータ) (2023-07-07T21:13:27Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。