論文の概要: Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense
- arxiv url: http://arxiv.org/abs/2303.13408v1
- Date: Thu, 23 Mar 2023 16:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:33:48.247957
- Title: Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense
- Title(参考訳): パラフレージングはai生成テキストの検出器を回避しますが、検索は効果的な防御です
- Authors: Kalpesh Krishna, Yixiao Song, Marzena Karpinska, John Wieting, Mohit
Iyyer
- Abstract要約: DIPPERによる3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたパラフレーズテキストは、いくつかの検出器を回避した。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
- 参考スコア(独自算出の注目度): 39.94717509532346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To detect the deployment of large language models for malicious use cases
(e.g., fake content creation or academic plagiarism), several approaches have
recently been proposed for identifying AI-generated text via watermarks or
statistical irregularities. How robust are these detection algorithms to
paraphrases of AI-generated text? To stress test these detectors, we first
train an 11B parameter paraphrase generation model (DIPPER) that can paraphrase
paragraphs, optionally leveraging surrounding text (e.g., user-written prompts)
as context. DIPPER also uses scalar knobs to control the amount of lexical
diversity and reordering in the paraphrases. Paraphrasing text generated by
three large language models (including GPT3.5-davinci-003) with DIPPER
successfully evades several detectors, including watermarking, GPTZero,
DetectGPT, and OpenAI's text classifier. For example, DIPPER drops the
detection accuracy of DetectGPT from 70.3% to 4.6% (at a constant false
positive rate of 1%), without appreciably modifying the input semantics. To
increase the robustness of AI-generated text detection to paraphrase attacks,
we introduce a simple defense that relies on retrieving semantically-similar
generations and must be maintained by a language model API provider. Given a
candidate text, our algorithm searches a database of sequences previously
generated by the API, looking for sequences that match the candidate text
within a certain threshold. We empirically verify our defense using a database
of 15M generations from a fine-tuned T5-XXL model and find that it can detect
80% to 97% of paraphrased generations across different settings, while only
classifying 1% of human-written sequences as AI-generated. We will open source
our code, model and data for future research.
- Abstract(参考訳): 悪意のあるユースケース(偽コンテンツ生成や学術的盗作など)に対する大規模言語モデルの展開を検出するため、最近、透かしや統計的不規則性を通じてAI生成テキストを特定するためのいくつかのアプローチが提案されている。
ai生成テキストのパラフレーズに対して、これらの検出アルゴリズムはどの程度堅牢か?
これらの検出をストレステストするために、まず11Bパラメータパラフレーズ生成モデル(DIPPER)をトレーニングし、パラフレーズ項を任意に周辺テキスト(例えばユーザ記述プロンプト)をコンテキストとして活用する。
DIPPERはまた、スカラーノブを使用して語彙の多様性とパラフレーズの並べ替え量を制御している。
3つの大きな言語モデル(GPT3.5-davinci-003)とDIPPERで生成されたパラフレーズテキストは、透かし、GPTZero、TectGPT、OpenAIのテキスト分類器を含むいくつかの検出器を回避した。
例えば、DIPPERは入力のセマンティクスを適切に変更することなく、検出精度を70.3%から4.6%(一定の偽陽性率で1%)に下げる。
本稿では,AI生成したテキスト検出とパラフレーズ攻撃の堅牢性を高めるために,意味論的に類似した世代を検索し,言語モデルAPIプロバイダがメンテナンスしなければならない,シンプルな防御手法を提案する。
候補テキストが与えられた場合,提案アルゴリズムは以前にAPIが生成したシーケンスのデータベースを検索し,特定のしきい値内で候補テキストと一致するシーケンスを探す。
我々は、微調整されたT5-XXLモデルから1500万世代分のデータベースを使用して、我々の防衛を実証的に検証し、異なる設定で言い換えられた世代の80%から97%を検出でき、人間の書き起こしシーケンスの1%をAI生成と分類できることがわかった。
将来の研究のために、コード、モデル、データをオープンソースにします。
関連論文リスト
- Technical Report on the Checkfor.ai AI-Generated Text Classifier [0.17404865362620806]
CheckforAIはトランスフォーマーベースのニューラルネットワークで、大きな言語モデルで書かれたテキストと人間の書いたテキストを区別するように訓練されている。
CheckforAIは、9倍以上のエラー率で、主要な商用AI検出ツールを上回っている。
論文 参考訳(メタデータ) (2024-02-21T17:13:41Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - Watermarking Conditional Text Generation for AI Detection: Unveiling
Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。
実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-25T20:24:22Z) - Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文 参考訳(メタデータ) (2023-06-13T20:34:55Z) - Multiscale Positive-Unlabeled Detection of AI-Generated Texts [27.956604193427772]
短文検出の難しさに対処するため,MPUトレーニングフレームワークを提案する。
MPU法は、長いAI生成テキストの検出性能を向上し、言語モデル検出器の短文検出を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-29T15:25:00Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。