論文の概要: GPT-generated Text Detection: Benchmark Dataset and Tensor-based
Detection Method
- arxiv url: http://arxiv.org/abs/2403.07321v1
- Date: Tue, 12 Mar 2024 05:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:55:17.147242
- Title: GPT-generated Text Detection: Benchmark Dataset and Tensor-based
Detection Method
- Title(参考訳): GPT生成テキスト検出:ベンチマークデータセットとテンソルベース検出方法
- Authors: Zubair Qazi, William Shiao, and Evangelos E. Papalexakis
- Abstract要約: GPT Reddit データセット(GRiD)は,GPT(Generative Pretrained Transformer)によって生成された新しいテキスト検出データセットである。
データセットは、Redditに基づくコンテキストプロンプトペアと、人間生成とChatGPT生成のレスポンスで構成されている。
データセットの有用性を示すために、我々は、その上でいくつかの検出方法をベンチマークし、人間とChatGPTが生成する応答を区別する効果を実証した。
- 参考スコア(独自算出の注目度): 4.802604527842989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As natural language models like ChatGPT become increasingly prevalent in
applications and services, the need for robust and accurate methods to detect
their output is of paramount importance. In this paper, we present GPT Reddit
Dataset (GRiD), a novel Generative Pretrained Transformer (GPT)-generated text
detection dataset designed to assess the performance of detection models in
identifying generated responses from ChatGPT. The dataset consists of a diverse
collection of context-prompt pairs based on Reddit, with human-generated and
ChatGPT-generated responses. We provide an analysis of the dataset's
characteristics, including linguistic diversity, context complexity, and
response quality. To showcase the dataset's utility, we benchmark several
detection methods on it, demonstrating their efficacy in distinguishing between
human and ChatGPT-generated responses. This dataset serves as a resource for
evaluating and advancing detection techniques in the context of ChatGPT and
contributes to the ongoing efforts to ensure responsible and trustworthy
AI-driven communication on the internet. Finally, we propose GpTen, a novel
tensor-based GPT text detection method that is semi-supervised in nature since
it only has access to human-generated text and performs on par with
fully-supervised baselines.
- Abstract(参考訳): chatgptのような自然言語モデルがアプリケーションやサービスで普及するにつれ、出力を検出するための堅牢で正確な方法の必要性が極めて重要である。
本稿では,GPT Reddit Dataset (GRiD) を提案する。GPT(Generative Pretrained Transformer)によって生成されたテキスト検出データセットで,ChatGPTから生成された応答を識別する際の検出モデルの性能を評価する。
データセットは、Redditに基づくさまざまなコンテキストプロンプトペアのコレクションと、人間生成とChatGPT生成のレスポンスで構成されている。
本稿では,言語多様性,文脈複雑性,応答品質など,データセットの特徴の分析を行う。
データセットの有用性を示すために、いくつかの検出手法をベンチマークし、人間とチャットgptが生成した応答を区別する効果を示す。
このデータセットは、chatgptのコンテキストにおける検出技術の評価と進歩のためのリソースであり、インターネット上でのai駆動通信の責任と信頼性を確保するための継続的な取り組みに貢献する。
最後に,人間の生成したテキストにのみアクセスでき,完全な教師付きベースラインと同等の性能を持つため,自然に教師付きである,新しいテンソルベースのgptテキスト検出手法gptenを提案する。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - On the Generalization of Training-based ChatGPT Detection Methods [33.46128880100525]
ChatGPTは、様々な自然言語タスクにおいて素晴らしいパフォーマンスを達成する最もポピュラーな言語モデルの1つである。
また、人書きから生成されたChatGPTのテキストを検出する必要がある。
論文 参考訳(メタデータ) (2023-10-02T16:13:08Z) - Detecting ChatGPT: A Survey of the State of Detecting ChatGPT-Generated
Text [1.9643748953805937]
生成言語モデルは、人間が生成したように見える人工的なテキストを生成することによって、潜在的に騙される可能性がある。
この調査は、人間が生成したテキストとChatGPTを区別するために使われている現在のアプローチの概要を提供する。
論文 参考訳(メタデータ) (2023-09-14T13:05:20Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content [27.901155229342375]
本稿では,言語モデルを用いたChatGPT生成対人文テキストの検出手法を提案する。
テストデータセットの精度は97%以上で,さまざまな指標から評価した。
論文 参考訳(メタデータ) (2023-05-13T17:12:11Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。