論文の概要: Using Machine Learning to Distinguish Human-written from Machine-generated Creative Fiction
- arxiv url: http://arxiv.org/abs/2412.15253v1
- Date: Sun, 15 Dec 2024 12:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-29 08:00:11.992323
- Title: Using Machine Learning to Distinguish Human-written from Machine-generated Creative Fiction
- Title(参考訳): 機械学習を用いた機械生成創造的フィクションから書き起こされた人間を識別する
- Authors: Andrea Cristina McGlinchey, Peter J Barclay,
- Abstract要約: 著者のアウトプットに基づいて大規模言語モデルを訓練し、特定のスタイルで「ハムブック」を生成することは、新しい形態の盗作であると考えられる。
本研究では,機械学習の分類モデルを訓練し,人間書きの短いサンプルを機械創作の創作小説と区別した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Following the universal availability of generative AI systems with the release of ChatGPT, automatic detection of deceptive text created by Large Language Models has focused on domains such as academic plagiarism and "fake news". However, generative AI also poses a threat to the livelihood of creative writers, and perhaps to literary culture in general, through reduction in quality of published material. Training a Large Language Model on writers' output to generate "sham books" in a particular style seems to constitute a new form of plagiarism. This problem has been little researched. In this study, we trained Machine Learning classifier models to distinguish short samples of human-written from machine-generated creative fiction, focusing on classic detective novels. Our results show that a Naive Bayes and a Multi-Layer Perceptron classifier achieved a high degree of success (accuracy > 95%), significantly outperforming human judges (accuracy < 55%). This approach worked well with short text samples (around 100 words), which previous research has shown to be difficult to classify. We have deployed an online proof-of-concept classifier tool, AI Detective, as a first step towards developing lightweight and reliable applications for use by editors and publishers, with the aim of protecting the economic and cultural contribution of human authors.
- Abstract(参考訳): ChatGPTのリリースにより、生成AIシステムが普遍的に利用可能になった後、Large Language Modelsによって作成された偽造テキストの自動検出は、学術プラジャリズムや「フェイクニュース」のような領域に焦点を当てている。
しかし、生成的AIは、出版物の質の低下によって、創造的な作家の生活、そしておそらく文学文化全般に脅威をもたらす。
著者のアウトプットに基づいて大規模言語モデルを訓練し、特定のスタイルで「ハムブック」を生成することは、新しい形態の盗作であると考えられる。
この問題はほとんど研究されていない。
本研究では,古典小説に焦点をあて,機械創作の創作小説と人間文の短いサンプルを区別するために,機械学習分類器モデルを訓練した。
以上の結果から, Naive Bayes と Multi-Layer Perceptron の分類器は高い成功率(精度 95% 以上)を達成し,人間の判断を著しく上回った(精度 5% 以上)。
このアプローチは短いテキストサンプル(約100語)でうまく機能し、以前の研究では分類が困難であることが示されている。
我々は、編集者や出版社が利用する軽量で信頼性の高いアプリケーションを開発するための第一歩として、オンライン概念証明分類ツールであるAI Detectiveをデプロイした。
関連論文リスト
- "It was 80% me, 20% AI": Seeking Authenticity in Co-Writing with Large Language Models [97.22914355737676]
我々は、AIツールと共同で書き込む際に、著者が自分の真正な声を保存したいかどうか、どのように検討する。
本研究は,人間とAIの共創における真正性の概念を解明するものである。
読者の反応は、人間とAIの共著に対する関心が低かった。
論文 参考訳(メタデータ) (2024-11-20T04:42:32Z) - AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text [53.15652021126663]
本稿では、テキストの言語的創造性を定量化する第一歩として、CREATIVITY INDEXを提案する。
CREATIVITY INDEXを効率的に計算するために,新しい動的プログラミングアルゴリズムであるDJ SEARCHを導入する。
実験の結果、プロの人間作家のCreativity INDEXはLLMよりも平均66.2%高いことが判明した。
論文 参考訳(メタデータ) (2024-10-05T18:55:01Z) - FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models [38.76912842622624]
プレトレーニング言語モデル(PLM)は、様々な自然言語生成(NLG)タスクにおいて印象的な結果を示している。
本研究では, PLMが生成するテキストの独創性を高めることを目的とした, 独特な「自己プラギアリズム」コントラスト的復号戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T19:17:00Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Few-Shot Detection of Machine-Generated Text using Style Representations [4.326503887981912]
人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。
そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。
また,人間と機械作家の区別にも有効であることがわかった。
論文 参考訳(メタデータ) (2024-01-12T17:26:51Z) - AI Content Self-Detection for Transformer-based Large Language Models [0.0]
本稿では、直接起点検出の概念を導入し、生成型AIシステムが出力を認識し、人文テキストと区別できるかどうかを評価する。
GoogleのBardモデルは、精度94%の自己検出の最大の能力を示し、OpenAIのChatGPTは83%である。
論文 参考訳(メタデータ) (2023-12-28T10:08:57Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - ChatGPT or academic scientist? Distinguishing authorship with over 99%
accuracy using off-the-shelf machine learning tools [0.0]
ChatGPTは、大衆向けのAI生成書き込みへのアクセスを可能にした。
人間の文章をAIから区別する必要性は、今、重要かつ緊急である。
そこで我々は,ChatGPTが生成したテキストを(人間)学術科学者から識別する手法を開発した。
論文 参考訳(メタデータ) (2023-03-28T23:16:00Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Are You Robert or RoBERTa? Deceiving Online Authorship Attribution
Models Using Neural Text Generators [3.9533044769534444]
GPT-2とXLM言語モデルは、既存のオンラインユーザー投稿を使ってテキストを生成するために使用される。
次に、これらAIベースのテキストジェネレータが、典型的AAモデルを欺くことができる程度に、著者スタイルを模倣できるかどうかを検討する。
本稿は、著者のスタイルを模倣できるオリジナルのオンライン投稿を生成するために、強力な自然言語モデルが現在持っている能力を強調した。
論文 参考訳(メタデータ) (2022-03-18T09:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。