論文の概要: GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content
- arxiv url: http://arxiv.org/abs/2305.07969v2
- Date: Wed, 17 May 2023 18:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 19:07:18.622802
- Title: GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content
- Title(参考訳): GPT-Sentinel:人間とチャットGPT生成コンテンツを識別する
- Authors: Yutian Chen, Hao Kang, Vivian Zhai, Liangze Li, Rita Singh, Bhiksha
Raj
- Abstract要約: 本稿では,言語モデルを用いたChatGPT生成対人文テキストの検出手法を提案する。
テストデータセットの精度は97%以上で,さまざまな指標から評価した。
- 参考スコア(独自算出の注目度): 27.901155229342375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel approach for detecting ChatGPT-generated vs.
human-written text using language models. To this end, we first collected and
released a pre-processed dataset named OpenGPTText, which consists of rephrased
content generated using ChatGPT. We then designed, implemented, and trained two
different models for text classification, using Robustly Optimized BERT
Pretraining Approach (RoBERTa) and Text-to-Text Transfer Transformer (T5),
respectively. Our models achieved remarkable results, with an accuracy of over
97% on the test dataset, as evaluated through various metrics. Furthermore, we
conducted an interpretability study to showcase our model's ability to extract
and differentiate key features between human-written and ChatGPT-generated
text. Our findings provide important insights into the effective use of
language models to detect generated text.
- Abstract(参考訳): 本稿では,言語モデルを用いたChatGPT生成対人文テキスト検出手法を提案する。
この目的のために、我々はまずOpenGPTTextという、ChatGPTを用いて生成されたリフレーズ付きコンテンツからなる前処理データセットを収集し、リリースした。
次に、RoBERTa(Roustly Optimized BERT Pretraining Approach)とText-to-Text Transfer Transformer(T5)を用いて、テキスト分類のための2つの異なるモデルの設計、実装、訓練を行った。
私たちのモデルは、さまざまなメトリクスで評価したように、テストデータセット上で97%以上の精度で、驚くべき結果を達成しました。
さらに,人間の手書きテキストとChatGPT生成テキストの主な特徴を抽出し,識別する能力を示すための解釈可能性の検討を行った。
本研究は,生成テキストの検出における言語モデルの有効利用に関する重要な知見を提供する。
関連論文リスト
- GPT-generated Text Detection: Benchmark Dataset and Tensor-based
Detection Method [4.802604527842989]
GPT Reddit データセット(GRiD)は,GPT(Generative Pretrained Transformer)によって生成された新しいテキスト検出データセットである。
データセットは、Redditに基づくコンテキストプロンプトペアと、人間生成とChatGPT生成のレスポンスで構成されている。
データセットの有用性を示すために、我々は、その上でいくつかの検出方法をベンチマークし、人間とChatGPTが生成する応答を区別する効果を実証した。
論文 参考訳(メタデータ) (2024-03-12T05:15:21Z) - On the Generalization of Training-based ChatGPT Detection Methods [33.46128880100525]
ChatGPTは、様々な自然言語タスクにおいて素晴らしいパフォーマンスを達成する最もポピュラーな言語モデルの1つである。
また、人書きから生成されたChatGPTのテキストを検出する必要がある。
論文 参考訳(メタデータ) (2023-10-02T16:13:08Z) - Detecting ChatGPT: A Survey of the State of Detecting ChatGPT-Generated
Text [1.9643748953805937]
生成言語モデルは、人間が生成したように見える人工的なテキストを生成することによって、潜在的に騙される可能性がある。
この調査は、人間が生成したテキストとChatGPTを区別するために使われている現在のアプローチの概要を提供する。
論文 参考訳(メタデータ) (2023-09-14T13:05:20Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - ChatGPT vs Human-authored Text: Insights into Controllable Text
Summarization and Sentence Style Transfer [8.64514166615844]
2つの制御可能な生成タスクにおいてChatGPTの性能を体系的に検査する。
生成したテキストの忠実度を評価し、そのモデルの性能を人間によるテキストと比較する。
テキストを特定のスタイルに適合させる際に、ChatGPTは時に事実的誤りや幻覚を取り入れている。
論文 参考訳(メタデータ) (2023-06-13T14:21:35Z) - ChatGraph: Interpretable Text Classification by Converting ChatGPT
Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。
テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。
本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文 参考訳(メタデータ) (2023-05-03T19:57:43Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability [57.71052396828714]
本稿では,ChatGPTのテキスト・トゥ・アビリティの最初の包括的分析について述べる。
異なる言語、設定、シナリオを持つ12のベンチマークデータセットで実験を行った。
現在のSOTA(State-of-the-art)モデルのパフォーマンスとはまだ差があるが、ChatGPTのパフォーマンスは印象的だ。
論文 参考訳(メタデータ) (2023-03-12T04:22:01Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。