論文の概要: Distinguishing Human Generated Text From ChatGPT Generated Text Using
Machine Learning
- arxiv url: http://arxiv.org/abs/2306.01761v1
- Date: Fri, 26 May 2023 09:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 13:56:43.281423
- Title: Distinguishing Human Generated Text From ChatGPT Generated Text Using
Machine Learning
- Title(参考訳): 機械学習を用いたChatGPT生成テキストからの人物生成テキストの識別
- Authors: Niful Islam, Debopom Sutradhar, Humaira Noor, Jarin Tasnim Raya,
Monowara Tabassum Maisha, Dewan Md Farid
- Abstract要約: 本稿では,人間のテキストからChatGPT配信されたテキストを識別する機械学習ベースのソリューションを提案する。
我々は、提案したモデルをKaggleデータセット上でテストし、そのうち5,204のテキストが人間によって書かれ、ニュースやソーシャルメディアから収集された1万のテキストからなる。
GPT-3.5で生成されたコーパスでは,提案アルゴリズムの精度は77%である。
- 参考スコア(独自算出の注目度): 0.251657752676152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT is a conversational artificial intelligence that is a member of the
generative pre-trained transformer of the large language model family. This
text generative model was fine-tuned by both supervised learning and
reinforcement learning so that it can produce text documents that seem to be
written by natural intelligence. Although there are numerous advantages of this
generative model, it comes with some reasonable concerns as well. This paper
presents a machine learning-based solution that can identify the ChatGPT
delivered text from the human written text along with the comparative analysis
of a total of 11 machine learning and deep learning algorithms in the
classification process. We have tested the proposed model on a Kaggle dataset
consisting of 10,000 texts out of which 5,204 texts were written by humans and
collected from news and social media. On the corpus generated by GPT-3.5, the
proposed algorithm presents an accuracy of 77%.
- Abstract(参考訳): ChatGPTは対話型人工知能であり、大きな言語モデルファミリーの生成前訓練されたトランスフォーマーのメンバーである。
このテキスト生成モデルは教師付き学習と強化学習の両方によって微調整され、自然知性によって書かれたと思われる文書を作成できる。
この生成モデルには多くの利点があるが、いくつかの合理的な懸念もある。
本稿では,ChatGPTが提供したテキストを人間の文章から識別し,その分類過程における機械学習とディープラーニングのアルゴリズムの合計11点の比較分析を行う。
我々は、提案したモデルをKaggleデータセット上でテストし、そのうち5,204個のテキストが人間によって書かれ、ニュースやソーシャルメディアから収集された。
GPT-3.5で生成されたコーパスでは,提案アルゴリズムの精度は77%である。
関連論文リスト
- Enhancing Text Generation in Joint NLG/NLU Learning Through Curriculum Learning, Semi-Supervised Training, and Advanced Optimization Techniques [0.0]
本研究では,NLG(Natural Language Generation)とNLU(Natural Language Understanding)の併用によってテキスト生成を改善する手法を開発した。
データは、クリーニング、トークン化、ストーミング、ストップワード削除など、注釈付きデータセットの収集と前処理によって作成される。
トランスフォーマーベースのエンコーダとデコーダ、長距離依存関係のキャプチャ、ソースターゲットシーケンスモデリングの改善。
政策勾配手法による強化学習、半教師付きトレーニング、注意機構の改善、および異なる近似を用いて、モデルを微調整し、複雑な言語タスクを効果的に処理する。
論文 参考訳(メタデータ) (2024-10-17T12:43:49Z) - Distinguishing Chatbot from Human [1.1249583407496218]
我々は,75万以上の人文文からなる新しいデータセットを開発した。
このデータセットに基づいて、テキストの起源を決定するために機械学習(ML)技術を適用する。
提案手法は高い分類精度を提供し,テキスト解析に有用なツールである。
論文 参考訳(メタデータ) (2024-08-03T13:18:04Z) - Technical Report on the Pangram AI-Generated Text Classifier [0.14732811715354457]
トランスフォーマーをベースとしたニューラルネットワークであるPangram Textについて紹介する。
パングラムテキストは英語以外の話者に偏りがなく、訓練中に見つからないドメインやモデルに一般化されていることを示す。
論文 参考訳(メタデータ) (2024-02-21T17:13:41Z) - Generative AI Text Classification using Ensemble LLM Approaches [0.12483023446237698]
大規模言語モデル(LLM)は、さまざまなAIや自然言語処理タスクで素晴らしいパフォーマンスを示している。
本研究では,異なる学習済みLLMから確率を生成するアンサンブルニューラルモデルを提案する。
AIと人間の生成したテキストを区別する最初のタスクとして、私たちのモデルは第5位と第13位にランクされた。
論文 参考訳(メタデータ) (2023-09-14T14:41:46Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content [27.901155229342375]
本稿では,言語モデルを用いたChatGPT生成対人文テキストの検出手法を提案する。
テストデータセットの精度は97%以上で,さまざまな指標から評価した。
論文 参考訳(メタデータ) (2023-05-13T17:12:11Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Robust Conversational AI with Grounded Text Generation [77.56950706340767]
GTGは、大規模なTransformerニューラルネットワークをバックボーンとして使用するハイブリッドモデルである。
タスク完了のための対話的信念状態と実世界の知識に基づく応答を生成する。
論文 参考訳(メタデータ) (2020-09-07T23:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。