論文の概要: The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD
- arxiv url: http://arxiv.org/abs/2307.12166v2
- Date: Sun, 12 Nov 2023 01:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:04:10.387938
- Title: The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD
- Title(参考訳): 模倣ゲーム: chatgptとbardの時代における人間とaiによるテキストの検出
- Authors: Kadhim Hayawi, Sakib Shahriar, Sujith Samuel Mathew
- Abstract要約: 異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential of artificial intelligence (AI)-based large language models
(LLMs) holds considerable promise in revolutionizing education, research, and
practice. However, distinguishing between human-written and AI-generated text
has become a significant task. This paper presents a comparative study,
introducing a novel dataset of human-written and LLM-generated texts in
different genres: essays, stories, poetry, and Python code. We employ several
machine learning models to classify the texts. Results demonstrate the efficacy
of these models in discerning between human and AI-generated text, despite the
dataset's limited sample size. However, the task becomes more challenging when
classifying GPT-generated text, particularly in story writing. The results
indicate that the models exhibit superior performance in binary classification
tasks, such as distinguishing human-generated text from a specific LLM,
compared to the more complex multiclass tasks that involve discerning among
human-generated and multiple LLMs. Our findings provide insightful implications
for AI text detection while our dataset paves the way for future research in
this evolving area.
- Abstract(参考訳): 人工知能(AI)ベースの大規模言語モデル(LLM)の可能性は、教育、研究、実践に革命をもたらす。
しかし、人書きテキストとAI生成テキストの区別は重要な課題となっている。
本稿では,エッセイ,物語,詩,Pythonコードなど,さまざまなジャンルの人文およびLLM生成テキストのデータセットを新たに導入した比較研究を紹介する。
いくつかの機械学習モデルを使ってテキストを分類する。
結果は、データセットのサンプルサイズが制限されているにもかかわらず、人間とAI生成したテキストを識別する上で、これらのモデルの有効性を示す。
しかし、特にストーリー執筆において、GPT生成テキストの分類が困難になる。
その結果,本モデルでは,人為的テキストと特定のLLMを区別するなどの二項分類タスクにおいて,人為的テキストと複数のLLMを識別するより複雑なマルチクラスタスクと比較して,優れた性能を示した。
我々のデータセットは、この進化する領域における将来の研究の道を開く一方で、AIテキスト検出に対する洞察に富んだ意味を提供する。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Decoding AI and Human Authorship: Nuances Revealed Through NLP and Statistical Analysis [0.0]
本研究では,AIが生成したテキストと人間が作成したテキストの微妙な相違について検討する。
本研究は,人文・AI生成テキストに固有の言語特性,創造性パターン,潜在的なバイアスについて検討した。
論文 参考訳(メタデータ) (2024-07-15T18:09:03Z) - Differentiating between human-written and AI-generated texts using linguistic features automatically extracted from an online computational tool [0.0]
本研究の目的は,AIが人間の文章をエミュレートする能力を評価することにある。
人間の発話を模倣したAI生成テキストが現れるにもかかわらず、結果は複数の言語的特徴に有意な差が認められた。
論文 参考訳(メタデータ) (2024-07-04T05:37:09Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs [19.073560504913356]
人造テキストと機械生成テキストの境界線は、ますますぼやけつつある。
本稿は,人間によって書かれたテキストにおいて,識別可能な言語的特徴と独特な言語的特性を識別する調査について述べる。
論文 参考訳(メタデータ) (2024-02-16T11:20:30Z) - Beyond Turing: A Comparative Analysis of Approaches for Detecting Machine-Generated Text [1.919654267936118]
従来の浅層学習,言語モデル(LM)微調整,多言語モデル微調整の評価を行った。
結果は、メソッド間でのパフォーマンスにかなりの違いが示される。
この研究は、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開くものである。
論文 参考訳(メタデータ) (2023-11-21T06:23:38Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。