論文の概要: Distinguishing Chatbot from Human
- arxiv url: http://arxiv.org/abs/2408.04647v1
- Date: Sat, 3 Aug 2024 13:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 04:27:34.304099
- Title: Distinguishing Chatbot from Human
- Title(参考訳): チャットボットを人間から駆除する
- Authors: Gauri Anil Godghase, Rishit Agrawal, Tanush Obili, Mark Stamp,
- Abstract要約: 我々は,75万以上の人文文からなる新しいデータセットを開発した。
このデータセットに基づいて、テキストの起源を決定するために機械学習(ML)技術を適用する。
提案手法は高い分類精度を提供し,テキスト解析に有用なツールである。
- 参考スコア(独自算出の注目度): 1.1249583407496218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There have been many recent advances in the fields of generative Artificial Intelligence (AI) and Large Language Models (LLM), with the Generative Pre-trained Transformer (GPT) model being a leading "chatbot." LLM-based chatbots have become so powerful that it may seem difficult to differentiate between human-written and machine-generated text. To analyze this problem, we have developed a new dataset consisting of more than 750,000 human-written paragraphs, with a corresponding chatbot-generated paragraph for each. Based on this dataset, we apply Machine Learning (ML) techniques to determine the origin of text (human or chatbot). Specifically, we consider two methodologies for tackling this issue: feature analysis and embeddings. Our feature analysis approach involves extracting a collection of features from the text for classification. We also explore the use of contextual embeddings and transformer-based architectures to train classification models. Our proposed solutions offer high classification accuracy and serve as useful tools for textual analysis, resulting in a better understanding of chatbot-generated text in this era of advanced AI technology.
- Abstract(参考訳): ジェネレーティブ・人工知能(AI)とLarge Language Models(LLM)の分野では、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルが主要な「チャットボット」となっている。
LLMベースのチャットボットは非常に強力になり、人書きテキストと機械生成テキストの区別が難しいように思える。
この問題を解析するために,75万以上の人文文からなる新しいデータセットを開発し,それぞれに対応するチャットボット生成段落を作成した。
このデータセットに基づいて、テキスト(人間またはチャットボット)の起源を決定するために機械学習(ML)技術を適用します。
具体的には、この問題に対処するための方法として、特徴分析と埋め込みの2つを検討する。
特徴分析手法では,テキストから特徴の集合を抽出して分類する。
また、文脈埋め込みとトランスフォーマーベースのアーキテクチャを使って分類モデルを訓練する方法について検討する。
提案手法は高い分類精度を提供し、テキスト解析の有用なツールとして機能し、この時代の高度なAI技術のチャットボット生成テキストをよりよく理解する。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Sentiment analysis and random forest to classify LLM versus human source applied to Scientific Texts [0.0]
自動テキスト生成エンジンや人間からのテキストを分類する新しい手法を提案する。
4つの異なる感情レキシコンを使用して、生成された多くの新機能を機械学習ランダムな森林方法論に供給し、そのようなモデルをトレーニングした。
結果は、人間がテキストのソースであるはずの環境において、これが詐欺を検知するための有望な研究ラインであることに非常に説得力があるように思える。
論文 参考訳(メタデータ) (2024-04-05T16:14:36Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Distinguishing Human Generated Text From ChatGPT Generated Text Using
Machine Learning [0.251657752676152]
本稿では,人間のテキストからChatGPT配信されたテキストを識別する機械学習ベースのソリューションを提案する。
我々は、提案したモデルをKaggleデータセット上でテストし、そのうち5,204のテキストが人間によって書かれ、ニュースやソーシャルメディアから収集された1万のテキストからなる。
GPT-3.5で生成されたコーパスでは,提案アルゴリズムの精度は77%である。
論文 参考訳(メタデータ) (2023-05-26T09:27:43Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Detecting Bot-Generated Text by Characterizing Linguistic Accommodation
in Human-Bot Interactions [9.578008322407928]
言語生成モデルの民主化は、悪質な活動のために、人間のようなテキストを大規模に生成しやすくする。
人々がボットとどのように相互作用するかを理解し、ボット生成テキストを検出する方法を開発することが不可欠である。
本稿では,ボットが生成するテキスト検出手法が,人々の反応に関する情報を使用する場合,データセットやモデル間でより堅牢であることを示す。
論文 参考訳(メタデータ) (2021-06-02T14:10:28Z) - Chatbot Interaction with Artificial Intelligence: Human Data
Augmentation with T5 and Language Transformer Ensemble for Text
Classification [2.492300648514128]
本稿では,タスク分類のための深層学習チャットボットの訓練へのアプローチとして,人工知能(CI-AI)フレームワークを提案する。
このインテリジェントシステムは、大量のトレーニングデータを生成するために、人工的なパラフレーズによって人為的なデータを増強する。
トレーニングデータをT5モデルで拡張すると,すべてのモデルが改善されることがわかった。
論文 参考訳(メタデータ) (2020-10-12T19:37:18Z) - Robust Conversational AI with Grounded Text Generation [77.56950706340767]
GTGは、大規模なTransformerニューラルネットワークをバックボーンとして使用するハイブリッドモデルである。
タスク完了のための対話的信念状態と実世界の知識に基づく応答を生成する。
論文 参考訳(メタデータ) (2020-09-07T23:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。