論文の概要: Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text
- arxiv url: http://arxiv.org/abs/2307.11380v2
- Date: Sat, 30 Dec 2023 13:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 02:11:39.277419
- Title: Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text
- Title(参考訳): ChatGPTはテキストに関わっているか?
ChatGPT生成テキスト検出のためのポーランド率の測定
- Authors: Lingyi Yang, Feng Jiang, Haizhou Li
- Abstract要約: 我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
- 参考スコア(独自算出の注目度): 48.36706154871577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable capabilities of large-scale language models, such as ChatGPT,
in text generation have impressed readers and spurred researchers to devise
detectors to mitigate potential risks, including misinformation, phishing, and
academic dishonesty. Despite this, most previous studies have been
predominantly geared towards creating detectors that differentiate between
purely ChatGPT-generated texts and human-authored texts. This approach,
however, fails to work on discerning texts generated through human-machine
collaboration, such as ChatGPT-polished texts. Addressing this gap, we
introduce a novel dataset termed HPPT (ChatGPT-polished academic abstracts),
facilitating the construction of more robust detectors. It diverges from extant
corpora by comprising pairs of human-written and ChatGPT-polished abstracts
instead of purely ChatGPT-generated texts. Additionally, we propose the "Polish
Ratio" method, an innovative measure of the degree of modification made by
ChatGPT compared to the original human-written text. It provides a mechanism to
measure the degree of ChatGPT influence in the resulting text. Our experimental
results show our proposed model has better robustness on the HPPT dataset and
two existing datasets (HC3 and CDB). Furthermore, the "Polish Ratio" we
proposed offers a more comprehensive explanation by quantifying the degree of
ChatGPT involvement.
- Abstract(参考訳): テキスト生成におけるchatgptのような大規模言語モデルの顕著な能力は、読者に感銘を与え、研究者は誤情報、フィッシング、学術的不正など潜在的なリスクを軽減するために検出器を考案した。
それにもかかわらず、これまでのほとんどの研究は、純粋なChatGPT生成テキストと人間が認可したテキストとを区別する検出器の作成を主な目的としてきた。
しかし、このアプローチは、ChatGPTをポリケートしたテキストのような人間と機械のコラボレーションによって生成されたテキストの識別に失敗する。
このギャップに対処し,より堅牢な検出器の構築を容易にする新しいデータセットであるhpt(chatgpt-polished academic abstracts)を導入する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratioを提案する。
結果のテキストにおけるChatGPTの影響の度合いを測定するメカニズムを提供する。
実験の結果,提案モデルではHPPTデータセットと既存の2つのデータセット(HC3とCDB)がより堅牢であることがわかった。
さらに,提案する「ポリッシュ比」は,チャットgptの関与度を定量化し,より包括的な説明を提供する。
関連論文リスト
- GPT-generated Text Detection: Benchmark Dataset and Tensor-based
Detection Method [4.802604527842989]
GPT Reddit データセット(GRiD)は,GPT(Generative Pretrained Transformer)によって生成された新しいテキスト検出データセットである。
データセットは、Redditに基づくコンテキストプロンプトペアと、人間生成とChatGPT生成のレスポンスで構成されている。
データセットの有用性を示すために、我々は、その上でいくつかの検出方法をベンチマークし、人間とChatGPTが生成する応答を区別する効果を実証した。
論文 参考訳(メタデータ) (2024-03-12T05:15:21Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Detecting ChatGPT: A Survey of the State of Detecting ChatGPT-Generated
Text [1.9643748953805937]
生成言語モデルは、人間が生成したように見える人工的なテキストを生成することによって、潜在的に騙される可能性がある。
この調査は、人間が生成したテキストとChatGPTを区別するために使われている現在のアプローチの概要を提供する。
論文 参考訳(メタデータ) (2023-09-14T13:05:20Z) - ChatGPT vs Human-authored Text: Insights into Controllable Text
Summarization and Sentence Style Transfer [8.64514166615844]
2つの制御可能な生成タスクにおいてChatGPTの性能を体系的に検査する。
生成したテキストの忠実度を評価し、そのモデルの性能を人間によるテキストと比較する。
テキストを特定のスタイルに適合させる際に、ChatGPTは時に事実的誤りや幻覚を取り入れている。
論文 参考訳(メタデータ) (2023-06-13T14:21:35Z) - GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content [27.901155229342375]
本稿では,言語モデルを用いたChatGPT生成対人文テキストの検出手法を提案する。
テストデータセットの精度は97%以上で,さまざまな指標から評価した。
論文 参考訳(メタデータ) (2023-05-13T17:12:11Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries
Through Blinded Reviewers and Text Classification Algorithms [0.8339831319589133]
OpenAIが開発したChatGPTは、言語モデルのファミリに最近追加されたものだ。
自動メトリクスと視覚障害者による抽象要約におけるChatGPTの性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:28:33Z) - Is ChatGPT A Good Keyphrase Generator? A Preliminary Study [51.863368917344864]
ChatGPTは最近、計算言語学コミュニティから大きな注目を集めている。
我々は、キーフレーズ生成プロンプト、キーフレーズ生成の多様性、長い文書理解など、様々な面でその性能を評価する。
その結果、ChatGPTは6つのプロンプトすべてに対して非常によく機能し、データセット間で小さなパフォーマンス差が観測されていることがわかった。
論文 参考訳(メタデータ) (2023-03-23T02:50:38Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。