論文の概要: Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors
- arxiv url: http://arxiv.org/abs/2505.15337v1
- Date: Wed, 21 May 2025 10:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.499271
- Title: Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors
- Title(参考訳): 言語モデルで人間のように書ける:LLMで生成したテキスト検出器の対照的なパラフレーズ攻撃
- Authors: Hao Fang, Jiawei Kong, Tianqu Zhuang, Yixiang Qiu, Kuofeng Gao, Bin Chen, Shu-Tao Xia, Yaowei Wang, Min Zhang,
- Abstract要約: テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
- 参考スコア(独自算出の注目度): 65.27124213266491
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The misuse of large language models (LLMs), such as academic plagiarism, has driven the development of detectors to identify LLM-generated texts. To bypass these detectors, paraphrase attacks have emerged to purposely rewrite these texts to evade detection. Despite the success, existing methods require substantial data and computational budgets to train a specialized paraphraser, and their attack efficacy greatly reduces when faced with advanced detection algorithms. To address this, we propose \textbf{Co}ntrastive \textbf{P}araphrase \textbf{A}ttack (CoPA), a training-free method that effectively deceives text detectors using off-the-shelf LLMs. The first step is to carefully craft instructions that encourage LLMs to produce more human-like texts. Nonetheless, we observe that the inherent statistical biases of LLMs can still result in some generated texts carrying certain machine-like attributes that can be captured by detectors. To overcome this, CoPA constructs an auxiliary machine-like word distribution as a contrast to the human-like distribution generated by the LLM. By subtracting the machine-like patterns from the human-like distribution during the decoding process, CoPA is able to produce sentences that are less discernible by text detectors. Our theoretical analysis suggests the superiority of the proposed attack. Extensive experiments validate the effectiveness of CoPA in fooling text detectors across various scenarios.
- Abstract(参考訳): 学術プラジャリズムのような大型言語モデル(LLM)の誤用は、LLM生成テキストを識別する検出器の開発を促している。
これらの検出を回避すべく、パラフレーズ攻撃が出現し、これらのテキストを意図的に書き直して検出を回避している。
成功にもかかわらず、既存の手法では特別なパラフレーズを訓練するためにかなりのデータと計算予算が必要であり、その攻撃の有効性は高度な検出アルゴリズムに直面すると大幅に低下する。
そこで本研究では,既製のLCMを用いてテキスト検出器を効果的に欺く訓練不要な方法として,textbf{Co}ntrastive \textbf{P}araphrase \textbf{A}ttack (CoPA)を提案する。
最初のステップは、LSMがより人間らしいテキストを生成するように促す命令を慎重に作成することです。
それでも、LLMの固有の統計的バイアスは、検出器によってキャプチャできる機械のような特性を持ついくつかの生成されたテキストをもたらす可能性があることを観察する。
これを解決するために、COPAはLLMによって生成される人間のような分布と対照的に補助的な機械的な単語分布を構築している。
復号処理中に人間のような分布から機械のようなパターンを減じることで、CoPAはテキスト検出器で識別できない文を生成することができる。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
大規模な実験により、様々なシナリオでテキスト検出器を騙す際のCoPAの有効性が検証された。
関連論文リスト
- Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。