論文の概要: Classification of Human- and AI-Generated Texts: Investigating Features
for ChatGPT
- arxiv url: http://arxiv.org/abs/2308.05341v1
- Date: Thu, 10 Aug 2023 05:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:50:52.632656
- Title: Classification of Human- and AI-Generated Texts: Investigating Features
for ChatGPT
- Title(参考訳): 人間とAIによるテキストの分類:ChatGPTの特徴を探る
- Authors: Lorenz Mindner, Tim Schlippe, Kristina Schaaff
- Abstract要約: 我々は、AIが生成したテキストをスクラッチから検出し、AIが表現したテキストをリフレッシュするための、伝統的で新しい機能を探る。
実験のために,10の学校トピックを対象とした新しいテキストコーパスを作成した。
基本的・先進的な人文・AI表現テキストを分類するための最良のシステムは、F1スコアが78%以上である。
- 参考スコア(独自算出の注目度): 0.25782420501870296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, generative AIs like ChatGPT have become available to the wide
public. These tools can for instance be used by students to generate essays or
whole theses. But how does a teacher know whether a text is written by a
student or an AI? In our work, we explore traditional and new features to (1)
detect text generated by AI from scratch and (2) text rephrased by AI. Since we
found that classification is more difficult when the AI has been instructed to
create the text in a way that a human would not recognize that it was generated
by an AI, we also investigate this more advanced case. For our experiments, we
produced a new text corpus covering 10 school topics. Our best systems to
classify basic and advanced human-generated/AI-generated texts have F1-scores
of over 96%. Our best systems for classifying basic and advanced
human-generated/AI-rephrased texts have F1-scores of more than 78%. The systems
use a combination of perplexity, semantic, list lookup, error-based,
readability, AI feedback, and text vector features. Our results show that the
new features substantially help to improve the performance of many classifiers.
Our best basic text rephrasing detection system even outperforms GPTZero by
183.8% relative in F1-score.
- Abstract(参考訳): 近年、ChatGPTのような生成AIが広く普及している。
これらのツールは、例えば学生がエッセイや全体を生成するために使用できる。
しかし、教師はテキストが生徒かaiによって書かれたかどうかをどうやって知るのか?
本研究では,(1)AIが生成するテキストをスクラッチから検出し,(2)AIが表現するテキストを検出する,従来の特徴と新機能について検討する。
我々は、AIがテキストを作成するように指示されたとき、AIによって生成されたことを人間が認識できないように分類することがより困難であることを発見したので、このより高度なケースについても調査する。
実験では,10の話題を対象とした新しいテキストコーパスを作成した。
基本および高度な人文・AI生成テキストを分類する最良のシステムは、F1スコアが96%以上である。
基本文と先進文を分類する最良のシステムは,f1-scoreが78%以上である。
システムは、パープレキシティ、セマンティック、リスト検索、エラーベース、可読性、AIフィードバック、テキストベクトル機能の組み合わせを使用する。
以上の結果から,多くの分類器の性能向上に寄与することが示唆された。
f1-scoreではgptzeroを183.8%も上回っている。
関連論文リスト
- Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - Raidar: geneRative AI Detection viA Rewriting [42.477151044325595]
大規模な言語モデル(LLM)は、書き直しのタスクを行う場合、AI生成テキストよりも人間の書き起こしテキストを変更する傾向にある。
テキストの書き直しを LLM に促し,出力の編集距離を計算することで,AI 生成コンテンツを検出する手法を提案する。
この結果から,機械自体のレンズを通した機械生成テキストのユニークなインプリントが明らかになった。
論文 参考訳(メタデータ) (2024-01-23T18:57:53Z) - AI Content Self-Detection for Transformer-based Large Language Models [0.0]
本稿では、直接起点検出の概念を導入し、生成型AIシステムが出力を認識し、人文テキストと区別できるかどうかを評価する。
GoogleのBardモデルは、精度94%の自己検出の最大の能力を示し、OpenAIのChatGPTは83%である。
論文 参考訳(メタデータ) (2023-12-28T10:08:57Z) - Classification of Human- and AI-Generated Texts for English, French,
German, and Spanish [0.138120109831448]
我々は、英語、フランス語、ドイツ語、スペイン語の人文およびAI生成テキストを分類する機能を分析する。
AI生成テキストの検出には,提案するすべての機能の組み合わせが最適である。
AIで表現されたテキストを検出するために、全ての特徴を持つシステムは、多くの場合、他の特徴を持つシステムよりも優れています。
論文 参考訳(メタデータ) (2023-12-08T07:42:06Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Distinguishing Human Generated Text From ChatGPT Generated Text Using
Machine Learning [0.251657752676152]
本稿では,人間のテキストからChatGPT配信されたテキストを識別する機械学習ベースのソリューションを提案する。
我々は、提案したモデルをKaggleデータセット上でテストし、そのうち5,204のテキストが人間によって書かれ、ニュースやソーシャルメディアから収集された1万のテキストからなる。
GPT-3.5で生成されたコーパスでは,提案アルゴリズムの精度は77%である。
論文 参考訳(メタデータ) (2023-05-26T09:27:43Z) - AI, write an essay for me: A large-scale comparison of human-written
versus ChatGPT-generated essays [66.36541161082856]
ChatGPTや同様の生成AIモデルは、何億人ものユーザーを惹きつけている。
本研究は,ChatGPTが生成した議論的学生エッセイと比較した。
論文 参考訳(メタデータ) (2023-04-24T12:58:28Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to
GPT-5 All You Need? [112.12974778019304]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。
純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。
本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文 参考訳(メタデータ) (2023-03-21T10:09:47Z) - Exploring AI-Generated Text in Student Writing: How Does AI Help? [0.0]
これらの学生の執筆において、AIが生成したテキストがどの程度高品質な執筆に繋がるかは、まだ不明である。
香港の23人の中学生が自語とAI生成テキストからなる物語を書こうと試みた。
論文 参考訳(メタデータ) (2023-03-10T14:36:47Z) - An Exploration of Post-Editing Effectiveness in Text Summarization [58.99765574294715]
AI生成テキストの"ポスト編集"は、人間の作業量を削減し、AI出力の品質を改善する。
編集後提供した要約と,要約品質,人的効率,ユーザエクスペリエンスのマニュアル要約を比較した。
本研究は,テキスト要約にポスト編集がいつ有用かについて,貴重な知見を提示する。
論文 参考訳(メタデータ) (2022-06-13T18:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。