Fugu-MT 論文翻訳(概要): Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text

論文の概要: Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text

arxiv url: http://arxiv.org/abs/2506.07001v1
Date: Sun, 08 Jun 2025 05:15:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.614651
Title: Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text
Title（参考訳）: AI生成テキストを人間化するためのユニバーサルアタック
Authors: Yize Cheng, Vinu Sankar Sadasivan, Mehrdad Saberi, Shoumik Saha, Soheil Feizi,
Abstract要約: 本稿では、AI生成したテキストを普遍的に人間化し、検出をより効果的に回避する、トレーニング不要な攻撃フレームワークであるAdversarial Paraphrasingを紹介する。我々の攻撃は広範囲に効果があり、複数の検知システムにまたがって非常に伝達可能である。
参考スコア（独自算出の注目度）: 42.70026220176376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing capabilities of Large Language Models (LLMs) have raised concerns about their misuse in AI-generated plagiarism and social engineering. While various AI-generated text detectors have been proposed to mitigate these risks, many remain vulnerable to simple evasion techniques such as paraphrasing. However, recent detectors have shown greater robustness against such basic attacks. In this work, we introduce Adversarial Paraphrasing, a training-free attack framework that universally humanizes any AI-generated text to evade detection more effectively. Our approach leverages an off-the-shelf instruction-following LLM to paraphrase AI-generated content under the guidance of an AI text detector, producing adversarial examples that are specifically optimized to bypass detection. Extensive experiments show that our attack is both broadly effective and highly transferable across several detection systems. For instance, compared to simple paraphrasing attack--which, ironically, increases the true positive at 1% false positive (T@1%F) by 8.57% on RADAR and 15.03% on Fast-DetectGPT--adversarial paraphrasing, guided by OpenAI-RoBERTa-Large, reduces T@1%F by 64.49% on RADAR and a striking 98.96% on Fast-DetectGPT. Across a diverse set of detectors--including neural network-based, watermark-based, and zero-shot approaches--our attack achieves an average T@1%F reduction of 87.88% under the guidance of OpenAI-RoBERTa-Large. We also analyze the tradeoff between text quality and attack success to find that our method can significantly reduce detection rates, with mostly a slight degradation in text quality. Our adversarial setup highlights the need for more robust and resilient detection strategies in the light of increasingly sophisticated evasion techniques.
Abstract（参考訳）: LLM(Large Language Models)の能力の増大は、AIが生成するプラジャリズムと社会工学の誤用に対する懸念を引き起こしている。これらのリスクを軽減するために様々なAI生成テキスト検出器が提案されているが、その多くはパラフレージングのような単純な回避技術に弱いままである。しかし、最近の検出器はこのような基本的な攻撃に対して強い堅牢性を示している。本稿では,AI生成したテキストを普遍的に人間化し,検出をより効果的に回避する,トレーニング不要な攻撃フレームワークであるAdversarial Paraphrasingを紹介する。提案手法では,AIテキスト検出装置の指導の下,AI生成したコンテンツを表現するために,既製の命令追従 LLM を利用して,バイパス検出に特化して最適化された逆例を生成する。大規模な実験により、我々の攻撃は広範囲に効果があり、複数の検知システムにまたがって非常に伝達可能であることが明らかとなった。例えば、単純なパラフレーズ攻撃(皮肉なことに、1%の偽陽性(T@1%F)をRADARで8.57%、Fast-DetectGPTで15.03%増加させ、OpenAI-RoBERTa-Largeでガイドされ、T@1%Fで64.49%減少し、Fast-DetectGPTで98.96%減少させる。 OpenAI-RoBERTa-Largeの指導の下で、ニューラルネットワーク、透かしベース、ゼロショットアプローチを含む多様な検出器セット全体で、我々の攻撃は平均T@1%Fの87.88%の減少を達成する。また,テキスト品質と攻撃成功のトレードオフを分析し,本手法が検出率を大幅に低減し,テキスト品質の低下がほとんどであることを示す。我々の敵対的な設定は、ますます高度な回避技術に照らして、より堅牢でレジリエントな検出戦略の必要性を強調します。

関連論文リスト

Evaluating the Performance of AI Text Detectors, Few-Shot and Chain-of-Thought Prompting Using DeepSeek Generated Text [2.942616054218564]
標準および人為的パラフレージングのようなアドリバーサ攻撃は、検出者がテキストを検出する能力を阻害する。我々は、DeepSeekが生成したテキストを、一般的なAI Text、Content Detector AI、Copyleaks、QuillBot、GPT-2、GPTZeroの6つが一貫して認識できるかどうかを調査する。
論文参考訳（メタデータ） (2025-07-23T21:26:33Z)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
AuthorMist: Evading AI Text Detectors with Reinforcement Learning [4.806579822134391]
AuthorMistは、AI生成したテキストを人間ライクな文章に変換する、新しい強化学習ベースのシステムだ。 AuthorMistは,本来の意味を保ちながら,AI生成テキストの検出性を効果的に低減することを示す。
論文参考訳（メタデータ） (2025-03-10T12:41:05Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
A Practical Examination of AI-Generated Text Detectors for Large Language Models [25.919278893876193]
機械生成コンテンツ検出器は、様々な条件や言語モデルからそのようなテキストを識別する。本稿では、これらの主張を、これらの検出器がこれまで遭遇していなかった領域、データセット、モデルにおいて、いくつかの一般的な検出器を評価することによって、批判的に評価する。
論文参考訳（メタデータ） (2024-12-06T15:56:11Z)
ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文参考訳（メタデータ） (2024-09-22T01:13:22Z)
RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。 RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文参考訳（メタデータ） (2023-07-07T21:13:27Z)
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。 DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文参考訳（メタデータ） (2023-03-23T16:29:27Z)
Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。