論文の概要: The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD
- arxiv url: http://arxiv.org/abs/2307.12166v2
- Date: Sun, 12 Nov 2023 01:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:04:10.387938
- Title: The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD
- Title(参考訳): 模倣ゲーム: chatgptとbardの時代における人間とaiによるテキストの検出
- Authors: Kadhim Hayawi, Sakib Shahriar, Sujith Samuel Mathew
- Abstract要約: 異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential of artificial intelligence (AI)-based large language models
(LLMs) holds considerable promise in revolutionizing education, research, and
practice. However, distinguishing between human-written and AI-generated text
has become a significant task. This paper presents a comparative study,
introducing a novel dataset of human-written and LLM-generated texts in
different genres: essays, stories, poetry, and Python code. We employ several
machine learning models to classify the texts. Results demonstrate the efficacy
of these models in discerning between human and AI-generated text, despite the
dataset's limited sample size. However, the task becomes more challenging when
classifying GPT-generated text, particularly in story writing. The results
indicate that the models exhibit superior performance in binary classification
tasks, such as distinguishing human-generated text from a specific LLM,
compared to the more complex multiclass tasks that involve discerning among
human-generated and multiple LLMs. Our findings provide insightful implications
for AI text detection while our dataset paves the way for future research in
this evolving area.
- Abstract(参考訳): 人工知能(AI)ベースの大規模言語モデル(LLM)の可能性は、教育、研究、実践に革命をもたらす。
しかし、人書きテキストとAI生成テキストの区別は重要な課題となっている。
本稿では,エッセイ,物語,詩,Pythonコードなど,さまざまなジャンルの人文およびLLM生成テキストのデータセットを新たに導入した比較研究を紹介する。
いくつかの機械学習モデルを使ってテキストを分類する。
結果は、データセットのサンプルサイズが制限されているにもかかわらず、人間とAI生成したテキストを識別する上で、これらのモデルの有効性を示す。
しかし、特にストーリー執筆において、GPT生成テキストの分類が困難になる。
その結果,本モデルでは,人為的テキストと特定のLLMを区別するなどの二項分類タスクにおいて,人為的テキストと複数のLLMを識別するより複雑なマルチクラスタスクと比較して,優れた性能を示した。
我々のデータセットは、この進化する領域における将来の研究の道を開く一方で、AIテキスト検出に対する洞察に富んだ意味を提供する。
関連論文リスト
- RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic
Features for Distinguishing AI-Generated and Human-Written Texts [0.8437187555622164]
本稿では、意味論と構文という2つの異なる側面からAIが生成するテキスト検出の問題について考察する。
マルチリンガルタスクとモノリンガルタスクの両方において,AI生成テキストと人書きテキストを高い精度で区別できるAIモデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T00:40:17Z) - Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse
Motifs [20.462992218235623]
本稿は,人間によって書かれたテキストにおいて,識別可能な言語的特徴と独特な言語的特性を識別する調査について述べる。
我々は階層的な解析木とハイパーグラフを利用して、人間と機械生成テキストの両方で生成されたテキストに特有の談話パターンを明らかにする。
論文 参考訳(メタデータ) (2024-02-16T11:20:30Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing
AI-Generated Text [0.0]
私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。
さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。
論文 参考訳(メタデータ) (2023-11-27T06:26:53Z) - Beyond Turing: A Comparative Analysis of Approaches for Detecting
Machine-Generated Text [1.919654267936118]
従来の浅層学習,言語モデル(LM)微調整,多言語モデル微調整の評価を行った。
結果は、メソッド間でのパフォーマンスにかなりの違いが示される。
この研究は、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開くものである。
論文 参考訳(メタデータ) (2023-11-21T06:23:38Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Pretrained Language Models for Text Generation: A Survey [46.03096493973206]
本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。
我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
論文 参考訳(メタデータ) (2021-05-21T12:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。