論文の概要: Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text
- arxiv url: http://arxiv.org/abs/2212.12672v1
- Date: Sat, 24 Dec 2022 06:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 13:38:48.852120
- Title: Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text
- Title(参考訳): 本物か偽のテキストか?
人文テキストと機械生成テキストの境界を検知する能力の検討
- Authors: Liam Dugan, Daphne Ippolito, Arun Kirubarajan, Sherry Shi, Chris
Callison-Burch
- Abstract要約: 我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
- 参考スコア(独自算出の注目度): 23.622347443796183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As text generated by large language models proliferates, it becomes vital to
understand how humans engage with such text, and whether or not they are able
to detect when the text they are reading did not originate with a human writer.
Prior work on human detection of generated text focuses on the case where an
entire passage is either human-written or machine-generated. In this paper, we
study a more realistic setting where text begins as human-written and
transitions to being generated by state-of-the-art neural language models. We
show that, while annotators often struggle at this task, there is substantial
variance in annotator skill and that given proper incentives, annotators can
improve at this task over time. Furthermore, we conduct a detailed comparison
study and analyze how a variety of variables (model size, decoding strategy,
fine-tuning, prompt genre, etc.) affect human detection performance. Finally,
we collect error annotations from our participants and use them to show that
certain textual genres influence models to make different types of errors and
that certain sentence-level features correlate highly with annotator selection.
We release the RoFT dataset: a collection of over 21,000 human annotations
paired with error classifications to encourage future work in human detection
and evaluation of generated text.
- Abstract(参考訳): 大きな言語モデルが生成するテキストが増殖するにつれて、人間がそのようなテキストとどのように関わるか、また、読んでいるテキストが人間のライターに起源がないことを検知できるかどうかを理解することが不可欠になる。
生成したテキストの人間検出に関する以前の研究は、全文が人書きまたは機械生成された場合に焦点を当てていた。
本稿では、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について検討する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
さらに,様々な変数(モデルサイズ,デコード戦略,微調整,素早いジャンルなど)が人間の検出性能に与える影響について,詳細な比較研究を行い,分析を行った。
最後に、被験者からエラーアノテーションを収集し、特定のテキストジャンルがモデルに影響を与え、異なるタイプのエラーを発生させ、特定の文レベルの特徴がアノテーションの選択と高い相関があることを示す。
エラー分類と組み合わせた21,000以上の人文アノテーションの集合であるRoFTデータセットを公開し、人文の検出と生成テキストの評価を後押しする。
関連論文リスト
- Few-Shot Detection of Machine-Generated Text using Style Representations [4.326503887981912]
人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。
例えば、そのようなモデルは、盗作、偽情報、スパム、フィッシングに使用することができる。
そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。
論文 参考訳(メタデータ) (2024-01-12T17:26:51Z) - Artificial Text Boundary Detection with Topological Data Analysis and
Sliding Window Techniques [7.268650032347209]
我々は,この人工テキスト境界検出問題に対して,様々なアプローチを検討・比較する。
本稿では,RoBERTaモデルの教師付き微調整が,一般に有効であることを示す。
本研究では,凍結言語モデルの埋め込みから抽出した特徴に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T17:48:19Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Detecting ChatGPT: A Survey of the State of Detecting ChatGPT-Generated
Text [1.9643748953805937]
生成言語モデルは、人間が生成したように見える人工的なテキストを生成することによって、潜在的に騙される可能性がある。
この調査は、人間が生成したテキストとChatGPTを区別するために使われている現在のアプローチの概要を提供する。
論文 参考訳(メタデータ) (2023-09-14T13:05:20Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z) - RoFT: A Tool for Evaluating Human Detection of Machine-Generated Text [25.80571756447762]
われわれはReal or Fake Text (RoFT)を紹介した。
本稿では,RoFTを用いたニュース記事の検出結果について述べる。
論文 参考訳(メタデータ) (2020-10-06T22:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。