論文の概要: Deep Learning Detection Method for Large Language Models-Generated
Scientific Content
- arxiv url: http://arxiv.org/abs/2403.00828v1
- Date: Tue, 27 Feb 2024 19:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 23:07:36.440653
- Title: Deep Learning Detection Method for Large Language Models-Generated
Scientific Content
- Title(参考訳): 大規模言語モデルのための深層学習検出法-科学的コンテンツ
- Authors: Bushra Alhijawi, Rawan Jarrar, Aseel AbuAlRub, and Arwa Bader
- Abstract要約: 大規模言語モデルは、人間が書いたものと区別できない科学的内容を生成する。
本稿では,ChatGPTを用いた科学テキスト検出手法であるAI-Catcherを提案する。
AI-Catcherの精度は平均37.4%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs), such as GPT-3 and BERT, reshape how textual
content is written and communicated. These models have the potential to
generate scientific content that is indistinguishable from that written by
humans. Hence, LLMs carry severe consequences for the scientific community,
which relies on the integrity and reliability of publications. This research
paper presents a novel ChatGPT-generated scientific text detection method,
AI-Catcher. AI-Catcher integrates two deep learning models, multilayer
perceptron (MLP) and convolutional neural networks (CNN). The MLP learns the
feature representations of the linguistic and statistical features. The CNN
extracts high-level representations of the sequential patterns from the textual
content. AI-Catcher is a multimodal model that fuses hidden patterns derived
from MLP and CNN. In addition, a new ChatGPT-Generated scientific text dataset
is collected to enhance AI-generated text detection tools, AIGTxt. AIGTxt
contains 3000 records collected from published academic articles across ten
domains and divided into three classes: Human-written, ChatGPT-generated, and
Mixed text. Several experiments are conducted to evaluate the performance of
AI-Catcher. The comparative results demonstrate the capability of AI-Catcher to
distinguish between human-written and ChatGPT-generated scientific text more
accurately than alternative methods. On average, AI-Catcher improved accuracy
by 37.4%.
- Abstract(参考訳): GPT-3 や BERT のような大規模言語モデル (LLM) は、テキストの書き方や通信方法を再定義する。
これらのモデルは、人間が書いたものと区別できない科学的コンテンツを生成する可能性がある。
したがって、LLMは出版物の完全性と信頼性に依存する科学界に深刻な結果をもたらす。
本稿では,ChatGPTを用いた科学テキスト検出手法であるAI-Catcherを提案する。
AI-Catcherは、2つのディープラーニングモデル、多層パーセプトロン(MLP)と畳み込みニューラルネットワーク(CNN)を統合する。
MLPは言語的特徴と統計的特徴の特徴表現を学習する。
CNNは、テキストコンテンツからシーケンシャルパターンの高レベル表現を抽出する。
AI-Catcherは、MLPとCNNから派生した隠れパターンを融合するマルチモーダルモデルである。
さらに、AI生成テキスト検出ツールであるAITxtを強化するために、新たなChatGPT生成科学テキストデータセットが収集される。
AIGTxtには10のドメインにまたがる学術論文から収集された3000のレコードが含まれており、人書き、チャットGPT生成、混合テキストの3つのクラスに分けられている。
AI-Catcherの性能を評価するために,いくつかの実験を行った。
比較結果は、AI-Catcherが人間の書き起こしとChatGPT生成した科学的テキストを、代替手法よりも正確に区別する能力を示している。
AI-Catcherの精度は平均37.4%向上した。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Distinguishing Chatbot from Human [1.1249583407496218]
我々は,75万以上の人文文からなる新しいデータセットを開発した。
このデータセットに基づいて、テキストの起源を決定するために機械学習(ML)技術を適用する。
提案手法は高い分類精度を提供し,テキスト解析に有用なツールである。
論文 参考訳(メタデータ) (2024-08-03T13:18:04Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing
AI-Generated Text [0.0]
私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。
さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。
論文 参考訳(メタデータ) (2023-11-27T06:26:53Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - Distinguishing Human Generated Text From ChatGPT Generated Text Using
Machine Learning [0.251657752676152]
本稿では,人間のテキストからChatGPT配信されたテキストを識別する機械学習ベースのソリューションを提案する。
我々は、提案したモデルをKaggleデータセット上でテストし、そのうち5,204のテキストが人間によって書かれ、ニュースやソーシャルメディアから収集された1万のテキストからなる。
GPT-3.5で生成されたコーパスでは,提案アルゴリズムの精度は77%である。
論文 参考訳(メタデータ) (2023-05-26T09:27:43Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Is This Abstract Generated by AI? A Research for the Gap between
AI-generated Scientific Text and Human-written Scientific Text [13.438933219811188]
本稿では,AIが生み出す科学内容と人間による文章とのギャップについて検討する。
我々は、AI生成科学テキストと人文科学テキストの間に、文章スタイルのギャップがあることを発見した。
論文 参考訳(メタデータ) (2023-01-24T04:23:20Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。