Fugu-MT 論文翻訳(概要): Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

論文の概要: Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

arxiv url: http://arxiv.org/abs/2303.13408v1
Date: Thu, 23 Mar 2023 16:29:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 13:33:48.247957
Title: Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense
Title（参考訳）: パラフレージングはai生成テキストの検出器を回避しますが、検索は効果的な防御です
Authors: Kalpesh Krishna, Yixiao Song, Marzena Karpinska, John Wieting, Mohit Iyyer
Abstract要約: DIPPERによる3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたパラフレーズテキストは、いくつかの検出器を回避した。我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
参考スコア（独自算出の注目度）: 39.94717509532346
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To detect the deployment of large language models for malicious use cases (e.g., fake content creation or academic plagiarism), several approaches have recently been proposed for identifying AI-generated text via watermarks or statistical irregularities. How robust are these detection algorithms to paraphrases of AI-generated text? To stress test these detectors, we first train an 11B parameter paraphrase generation model (DIPPER) that can paraphrase paragraphs, optionally leveraging surrounding text (e.g., user-written prompts) as context. DIPPER also uses scalar knobs to control the amount of lexical diversity and reordering in the paraphrases. Paraphrasing text generated by three large language models (including GPT3.5-davinci-003) with DIPPER successfully evades several detectors, including watermarking, GPTZero, DetectGPT, and OpenAI's text classifier. For example, DIPPER drops the detection accuracy of DetectGPT from 70.3% to 4.6% (at a constant false positive rate of 1%), without appreciably modifying the input semantics. To increase the robustness of AI-generated text detection to paraphrase attacks, we introduce a simple defense that relies on retrieving semantically-similar generations and must be maintained by a language model API provider. Given a candidate text, our algorithm searches a database of sequences previously generated by the API, looking for sequences that match the candidate text within a certain threshold. We empirically verify our defense using a database of 15M generations from a fine-tuned T5-XXL model and find that it can detect 80% to 97% of paraphrased generations across different settings, while only classifying 1% of human-written sequences as AI-generated. We will open source our code, model and data for future research.
Abstract（参考訳）: 悪意のあるユースケース(偽コンテンツ生成や学術的盗作など)に対する大規模言語モデルの展開を検出するため、最近、透かしや統計的不規則性を通じてAI生成テキストを特定するためのいくつかのアプローチが提案されている。 ai生成テキストのパラフレーズに対して、これらの検出アルゴリズムはどの程度堅牢か? これらの検出をストレステストするために、まず11Bパラメータパラフレーズ生成モデル(DIPPER)をトレーニングし、パラフレーズ項を任意に周辺テキスト(例えばユーザ記述プロンプト)をコンテキストとして活用する。 DIPPERはまた、スカラーノブを使用して語彙の多様性とパラフレーズの並べ替え量を制御している。 3つの大きな言語モデル(GPT3.5-davinci-003)とDIPPERで生成されたパラフレーズテキストは、透かし、GPTZero、TectGPT、OpenAIのテキスト分類器を含むいくつかの検出器を回避した。例えば、DIPPERは入力のセマンティクスを適切に変更することなく、検出精度を70.3%から4.6%(一定の偽陽性率で1%)に下げる。本稿では,AI生成したテキスト検出とパラフレーズ攻撃の堅牢性を高めるために,意味論的に類似した世代を検索し,言語モデルAPIプロバイダがメンテナンスしなければならない,シンプルな防御手法を提案する。候補テキストが与えられた場合,提案アルゴリズムは以前にAPIが生成したシーケンスのデータベースを検索し,特定のしきい値内で候補テキストと一致するシーケンスを探す。我々は、微調整されたT5-XXLモデルから1500万世代分のデータベースを使用して、我々の防衛を実証的に検証し、異なる設定で言い換えられた世代の80%から97%を検出でき、人間の書き起こしシーケンスの1%をAI生成と分類できることがわかった。将来の研究のために、コード、モデル、データをオープンソースにします。

関連論文リスト

Evaluating the Performance of AI Text Detectors, Few-Shot and Chain-of-Thought Prompting Using DeepSeek Generated Text [2.942616054218564]
標準および人為的パラフレージングのようなアドリバーサ攻撃は、検出者がテキストを検出する能力を阻害する。我々は、DeepSeekが生成したテキストを、一般的なAI Text、Content Detector AI、Copyleaks、QuillBot、GPT-2、GPTZeroの6つが一貫して認識できるかどうかを調査する。
論文参考訳（メタデータ） (2025-07-23T21:26:33Z)
AuthorMist: Evading AI Text Detectors with Reinforcement Learning [4.806579822134391]
AuthorMistは、AI生成したテキストを人間ライクな文章に変換する、新しい強化学習ベースのシステムだ。 AuthorMistは,本来の意味を保ちながら,AI生成テキストの検出性を効果的に低減することを示す。
論文参考訳（メタデータ） (2025-03-10T12:41:05Z)
Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [60.09665704993751]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文参考訳（メタデータ） (2025-02-06T21:58:48Z)
Adversarial Attacks on AI-Generated Text Detection Models: A Token Probability-Based Approach Using Embeddings [14.150011713654331]
本研究では,Fast-DetectGPTなどの検出モデルに対する新たなテキスト逆攻撃を提案する。この手法では、AI生成したテキストの再構築を目的として、データ摂動の埋め込みモデルを用いて、テキストの真の起源を検出する可能性を低減する。
論文参考訳（メタデータ） (2025-01-31T10:06:27Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文参考訳（メタデータ） (2024-09-22T01:13:22Z)
SilverSpeak: Evading AI-Generated Text Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文参考訳（メタデータ） (2024-06-17T06:07:32Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
DetectGPT-SC: Improving Detection of Text Generated by Large Language Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文参考訳（メタデータ） (2023-10-23T01:23:10Z)
Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2023-07-25T20:24:22Z)
Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。自然言語処理(NLP)技術を用いた新しい手法を提案する。与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文参考訳（メタデータ） (2023-06-13T20:34:55Z)
Multiscale Positive-Unlabeled Detection of AI-Generated Texts [27.956604193427772]
短文検出の難しさに対処するため,MPUトレーニングフレームワークを提案する。 MPU法は、長いAI生成テキストの検出性能を向上し、言語モデル検出器の短文検出を大幅に改善する。
論文参考訳（メタデータ） (2023-05-29T15:25:00Z)
Smaller Language Models are Better Black-box Machine-Generated Text Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文参考訳（メタデータ） (2023-05-17T00:09:08Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。