論文の概要: Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense
- arxiv url: http://arxiv.org/abs/2303.13408v1
- Date: Thu, 23 Mar 2023 16:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:33:48.247957
- Title: Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense
- Title(参考訳): パラフレージングはai生成テキストの検出器を回避しますが、検索は効果的な防御です
- Authors: Kalpesh Krishna, Yixiao Song, Marzena Karpinska, John Wieting, Mohit
Iyyer
- Abstract要約: DIPPERによる3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたパラフレーズテキストは、いくつかの検出器を回避した。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
- 参考スコア(独自算出の注目度): 39.94717509532346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To detect the deployment of large language models for malicious use cases
(e.g., fake content creation or academic plagiarism), several approaches have
recently been proposed for identifying AI-generated text via watermarks or
statistical irregularities. How robust are these detection algorithms to
paraphrases of AI-generated text? To stress test these detectors, we first
train an 11B parameter paraphrase generation model (DIPPER) that can paraphrase
paragraphs, optionally leveraging surrounding text (e.g., user-written prompts)
as context. DIPPER also uses scalar knobs to control the amount of lexical
diversity and reordering in the paraphrases. Paraphrasing text generated by
three large language models (including GPT3.5-davinci-003) with DIPPER
successfully evades several detectors, including watermarking, GPTZero,
DetectGPT, and OpenAI's text classifier. For example, DIPPER drops the
detection accuracy of DetectGPT from 70.3% to 4.6% (at a constant false
positive rate of 1%), without appreciably modifying the input semantics. To
increase the robustness of AI-generated text detection to paraphrase attacks,
we introduce a simple defense that relies on retrieving semantically-similar
generations and must be maintained by a language model API provider. Given a
candidate text, our algorithm searches a database of sequences previously
generated by the API, looking for sequences that match the candidate text
within a certain threshold. We empirically verify our defense using a database
of 15M generations from a fine-tuned T5-XXL model and find that it can detect
80% to 97% of paraphrased generations across different settings, while only
classifying 1% of human-written sequences as AI-generated. We will open source
our code, model and data for future research.
- Abstract(参考訳): 悪意のあるユースケース(偽コンテンツ生成や学術的盗作など)に対する大規模言語モデルの展開を検出するため、最近、透かしや統計的不規則性を通じてAI生成テキストを特定するためのいくつかのアプローチが提案されている。
ai生成テキストのパラフレーズに対して、これらの検出アルゴリズムはどの程度堅牢か?
これらの検出をストレステストするために、まず11Bパラメータパラフレーズ生成モデル(DIPPER)をトレーニングし、パラフレーズ項を任意に周辺テキスト(例えばユーザ記述プロンプト)をコンテキストとして活用する。
DIPPERはまた、スカラーノブを使用して語彙の多様性とパラフレーズの並べ替え量を制御している。
3つの大きな言語モデル(GPT3.5-davinci-003)とDIPPERで生成されたパラフレーズテキストは、透かし、GPTZero、TectGPT、OpenAIのテキスト分類器を含むいくつかの検出器を回避した。
例えば、DIPPERは入力のセマンティクスを適切に変更することなく、検出精度を70.3%から4.6%(一定の偽陽性率で1%)に下げる。
本稿では,AI生成したテキスト検出とパラフレーズ攻撃の堅牢性を高めるために,意味論的に類似した世代を検索し,言語モデルAPIプロバイダがメンテナンスしなければならない,シンプルな防御手法を提案する。
候補テキストが与えられた場合,提案アルゴリズムは以前にAPIが生成したシーケンスのデータベースを検索し,特定のしきい値内で候補テキストと一致するシーケンスを探す。
我々は、微調整されたT5-XXLモデルから1500万世代分のデータベースを使用して、我々の防衛を実証的に検証し、異なる設定で言い換えられた世代の80%から97%を検出でき、人間の書き起こしシーケンスの1%をAI生成と分類できることがわかった。
将来の研究のために、コード、モデル、データをオープンソースにします。
関連論文リスト
- Adversarial Attacks on AI-Generated Text Detection Models: A Token Probability-Based Approach Using Embeddings [14.150011713654331]
本研究では,Fast-DetectGPTなどの検出モデルに対する新たなテキスト逆攻撃を提案する。
この手法では、AI生成したテキストの再構築を目的として、データ摂動の埋め込みモデルを用いて、テキストの真の起源を検出する可能性を低減する。
論文 参考訳(メタデータ) (2025-01-31T10:06:27Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。
本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。
我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文 参考訳(メタデータ) (2024-09-22T01:13:22Z) - SilverSpeak: Evading AI-Generated Text Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - Watermarking Conditional Text Generation for AI Detection: Unveiling
Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。
実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-25T20:24:22Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。