論文の概要: Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text
- arxiv url: http://arxiv.org/abs/2212.12672v1
- Date: Sat, 24 Dec 2022 06:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 13:38:48.852120
- Title: Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text
- Title(参考訳): 本物か偽のテキストか?
人文テキストと機械生成テキストの境界を検知する能力の検討
- Authors: Liam Dugan, Daphne Ippolito, Arun Kirubarajan, Sherry Shi, Chris
Callison-Burch
- Abstract要約: 我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
- 参考スコア(独自算出の注目度): 23.622347443796183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As text generated by large language models proliferates, it becomes vital to
understand how humans engage with such text, and whether or not they are able
to detect when the text they are reading did not originate with a human writer.
Prior work on human detection of generated text focuses on the case where an
entire passage is either human-written or machine-generated. In this paper, we
study a more realistic setting where text begins as human-written and
transitions to being generated by state-of-the-art neural language models. We
show that, while annotators often struggle at this task, there is substantial
variance in annotator skill and that given proper incentives, annotators can
improve at this task over time. Furthermore, we conduct a detailed comparison
study and analyze how a variety of variables (model size, decoding strategy,
fine-tuning, prompt genre, etc.) affect human detection performance. Finally,
we collect error annotations from our participants and use them to show that
certain textual genres influence models to make different types of errors and
that certain sentence-level features correlate highly with annotator selection.
We release the RoFT dataset: a collection of over 21,000 human annotations
paired with error classifications to encourage future work in human detection
and evaluation of generated text.
- Abstract(参考訳): 大きな言語モデルが生成するテキストが増殖するにつれて、人間がそのようなテキストとどのように関わるか、また、読んでいるテキストが人間のライターに起源がないことを検知できるかどうかを理解することが不可欠になる。
生成したテキストの人間検出に関する以前の研究は、全文が人書きまたは機械生成された場合に焦点を当てていた。
本稿では、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について検討する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
さらに,様々な変数(モデルサイズ,デコード戦略,微調整,素早いジャンルなど)が人間の検出性能に与える影響について,詳細な比較研究を行い,分析を行った。
最後に、被験者からエラーアノテーションを収集し、特定のテキストジャンルがモデルに影響を与え、異なるタイプのエラーを発生させ、特定の文レベルの特徴がアノテーションの選択と高い相関があることを示す。
エラー分類と組み合わせた21,000以上の人文アノテーションの集合であるRoFTデータセットを公開し、人文の検出と生成テキストの評価を後押しする。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Detecting Subtle Differences between Human and Model Languages Using Spectrum of Relative Likelihood [5.404146472517001]
本研究は、絶対値ではなく相対的確率値を用いることにより、新たな視点を提供する。
本稿では,教師型と教師型という2つの分類法を用いた検出手法を提案する。
また,人間の言語とモデル言語との微妙な差異を明らかにし,心理言語学研究の理論的ルーツを見出すことができる。
論文 参考訳(メタデータ) (2024-06-28T12:28:52Z) - Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。
提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。
実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文 参考訳(メタデータ) (2024-05-30T17:38:44Z) - Few-Shot Detection of Machine-Generated Text using Style Representations [4.326503887981912]
人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。
そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。
また,人間と機械作家の区別にも有効であることがわかった。
論文 参考訳(メタデータ) (2024-01-12T17:26:51Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z) - RoFT: A Tool for Evaluating Human Detection of Machine-Generated Text [25.80571756447762]
われわれはReal or Fake Text (RoFT)を紹介した。
本稿では,RoFTを用いたニュース記事の検出結果について述べる。
論文 参考訳(メタデータ) (2020-10-06T22:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。