論文の概要: GPT Paternity Test: GPT Generated Text Detection with GPT Genetic
Inheritance
- arxiv url: http://arxiv.org/abs/2305.12519v1
- Date: Sun, 21 May 2023 17:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:54:44.769521
- Title: GPT Paternity Test: GPT Generated Text Detection with GPT Genetic
Inheritance
- Title(参考訳): GPTパタニティテスト:GPT遺伝遺伝情報を用いたGPT生成テキスト検出
- Authors: Xiao Yu, Yuang Qi, Kejiang Chen, Guoqiang Chen, Xi Yang, Pengyuan Zhu,
Weiming Zhang and Nenghai Yu
- Abstract要約: GPTパタニティテスト(GPT-Pat)を導入する。
原文と生成された再回答テキストとの類似性を比較することにより、本文が機械生成されているか否かを判定することができる。
提案手法は4つの一般化テストセットで平均94.57%の精度を達成し, 最先端のRoBERTa法を12.34%上回った。
- 参考スコア(独自算出の注目度): 89.97709633381172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can generate texts that carry the risk of
various misuses, including plagiarism, planting fake reviews on e-commerce
platforms, or creating fake social media postings that can sway election
results. Detecting whether a text is machine-generated has thus become
increasingly important. While machine-learning-based detection strategies
exhibit superior performance, they often lack generalizability, limiting their
practicality. In this work, we introduce GPT Paternity Test (GPT-Pat), which
reliably detects machine-generated text across varied datasets. Given a text
under scrutiny, we leverage ChatGPT to generate a corresponding question and
provide a re-answer to the question. By comparing the similarity between the
original text and the generated re-answered text, it can be determined whether
the text is machine-generated. GPT-Pat consists of a Siamese network to compute
the similarity between the original text and the generated re-answered text and
a binary classifier. Our method achieved an average accuracy of 94.57% on four
generalization test sets, surpassing the state-of-the-art RoBERTa-based method
by 12.34%. The accuracy drop of our method is only about half of that of the
RoBERTa-based method when it is attacked by re-translation and polishing.
- Abstract(参考訳): 大規模言語モデル(LLM)は、盗用、eコマースプラットフォームへの偽レビューの植え付け、選挙結果の妨げとなる偽のソーシャルメディア投稿など、さまざまな誤用のリスクを負うテキストを生成することができる。
テキストが機械生成であるかどうかを検出することがますます重要になっている。
機械学習に基づく検出戦略は優れた性能を示すが、しばしば汎用性が欠如し、実用性が制限される。
本稿では,様々なデータセットにまたがる機械生成テキストを確実に検出するgpt-pat(gpt paternity test)を提案する。
調査対象のテキストが与えられた場合、ChatGPTを利用して対応する質問を生成し、質問に対する再回答を提供する。
原文と生成した再合成テキストの類似性を比較することにより、原文が機械生成であるか否かを判定することができる。
GPT-Patは、元のテキストと生成された再回答テキストの類似性を計算するためのシームズネットワークとバイナリ分類器で構成される。
提案手法は, 4つの一般化テストセットの平均精度を94.57%, 最先端のRoBERTa法を12.34%上回った。
本手法の精度低下は,再翻訳および研磨による攻撃を受けた場合のRoBERTa法の半分程度に過ぎなかった。
関連論文リスト
- GPT-generated Text Detection: Benchmark Dataset and Tensor-based
Detection Method [4.802604527842989]
GPT Reddit データセット(GRiD)は,GPT(Generative Pretrained Transformer)によって生成された新しいテキスト検出データセットである。
データセットは、Redditに基づくコンテキストプロンプトペアと、人間生成とChatGPT生成のレスポンスで構成されている。
データセットの有用性を示すために、我々は、その上でいくつかの検出方法をベンチマークし、人間とChatGPTが生成する応答を区別する効果を実証した。
論文 参考訳(メタデータ) (2024-03-12T05:15:21Z) - DetectGPT-SC: Improving Detection of Text Generated by Large Language
Models through Self-Consistency with Masked Predictions [13.077729125193434]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分配ギャップがあるという仮定に基づいて構築されている。
また,ChatGPTのような大規模言語モデルは,テキスト生成や継続において強い自己整合性を示すことがわかった。
マスク付き予測を用いた自己整合性に基づくAI生成テキストの検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:23:10Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z) - GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content [27.901155229342375]
本稿では,言語モデルを用いたChatGPT生成対人文テキストの検出手法を提案する。
テストデータセットの精度は97%以上で,さまざまな指標から評価した。
論文 参考訳(メタデータ) (2023-05-13T17:12:11Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。