論文の概要: Large Language Model (LLM) AI text generation detection based on transformer deep learning algorithm
- arxiv url: http://arxiv.org/abs/2405.06652v1
- Date: Sat, 6 Apr 2024 06:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 08:49:26.604489
- Title: Large Language Model (LLM) AI text generation detection based on transformer deep learning algorithm
- Title(参考訳): 変圧器深層学習アルゴリズムに基づくLarge Language Model (LLM) AIテキスト生成検出
- Authors: Yuhong Mo, Hao Qin, Yushan Dong, Ziyi Zhu, Zhenglin Li,
- Abstract要約: トランスフォーマーモデルを用いてAIテキスト生成を検出するツールを開発する。
ディープラーニングモデルは、テキスト分類やシーケンスラベリングタスクのためにLSTM、Transformer、CNNなどのレイヤを組み合わせる。
このモデルはAI生成テキストの99%の予測精度を持ち、精度は0.99、リコールは1、f1スコアは0.99であり、非常に高い分類精度を達成する。
- 参考スコア(独自算出の注目度): 0.9004420912552793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a tool for detecting LLM AI text generation is developed based on the Transformer model, aiming to improve the accuracy of AI text generation detection and provide reference for subsequent research. Firstly the text is Unicode normalised, converted to lowercase form, characters other than non-alphabetic characters and punctuation marks are removed by regular expressions, spaces are added around punctuation marks, first and last spaces are removed, consecutive ellipses are replaced with single spaces and the text is connected using the specified delimiter. Next remove non-alphabetic characters and extra whitespace characters, replace multiple consecutive whitespace characters with a single space and again convert to lowercase form. The deep learning model combines layers such as LSTM, Transformer and CNN for text classification or sequence labelling tasks. The training and validation sets show that the model loss decreases from 0.127 to 0.005 and accuracy increases from 94.96 to 99.8, indicating that the model has good detection and classification ability for AI generated text. The test set confusion matrix and accuracy show that the model has 99% prediction accuracy for AI-generated text, with a precision of 0.99, a recall of 1, and an f1 score of 0.99, achieving a very high classification accuracy. Looking forward, it has the prospect of wide application in the field of AI text detection.
- Abstract(参考訳): 本稿では,トランスフォーマーモデルに基づくLLM AIテキスト生成検出ツールを開発し,AIテキスト生成検出の精度の向上とその後の研究への参照を提案する。
まず、Unicode正規化され、小文字に変換され、非アルファ文字以外の文字と句読点以外の文字を正規表現で除去し、句読点を中心に空間を追加し、第一と最後の空間を除去し、連続する楕円を単一空間に置き換え、指定された区切り文字を用いてテキストを接続する。
次に、非アルファ文字と余分な空白文字を取り除き、連続する複数の空白文字を1つの空白に置き換え、再び小文字に変換する。
ディープラーニングモデルは、テキスト分類やシーケンスラベリングタスクのためにLSTM、Transformer、CNNなどのレイヤを組み合わせる。
トレーニングと検証セットは、モデル損失が0.127から0.005に減少し、精度が94.96から99.8に向上していることを示し、AI生成したテキストの優れた検出と分類能力を示している。
テストセットの混乱行列と精度は、AI生成テキストの予測精度が99%、精度が0.99、リコールが1、f1スコアが0.99であり、非常に高い分類精度が得られることを示している。
今後は、AIテキスト検出の分野で幅広い応用が期待できる。
関連論文リスト
- Applying Ensemble Methods to Model-Agnostic Machine-Generated Text Detection [0.0]
そこで本研究では,機械が生成したテキストを,そこから派生した大きな言語モデルが未知の場合に検出する問題について検討する。
生成型(またはベース)言語モデルと識別型(またはスコアリング型)言語モデルとが同一である場合に高い精度で、ゼロショットモデルを用いてテキスト検出を行う。
論文 参考訳(メタデータ) (2024-06-18T12:58:01Z) - AI-Generated Text Detection and Classification Based on BERT Deep Learning Algorithm [10.5960023194262]
本研究では,BERTアルゴリズムに基づく効率的なAI生成テキスト検出モデルを提案する。
精度は初期94.78%から99.72%に上昇し、損失値は0.261から0.021に減少し、徐々に収束する。
損失値に関しては、トレーニングセットの平均損失は0.0565、テストセットの平均損失は0.0917であり、損失値がわずかに高い。
論文 参考訳(メタデータ) (2024-05-26T04:26:07Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Raidar: geneRative AI Detection viA Rewriting [42.477151044325595]
大規模な言語モデル(LLM)は、書き直しのタスクを行う場合、AI生成テキストよりも人間の書き起こしテキストを変更する傾向にある。
テキストの書き直しを LLM に促し,出力の編集距離を計算することで,AI 生成コンテンツを検出する手法を提案する。
この結果から,機械自体のレンズを通した機械生成テキストのユニークなインプリントが明らかになった。
論文 参考訳(メタデータ) (2024-01-23T18:57:53Z) - Multiscale Positive-Unlabeled Detection of AI-Generated Texts [27.956604193427772]
短文検出の難しさに対処するため,MPUトレーニングフレームワークを提案する。
MPU法は、長いAI生成テキストの検出性能を向上し、言語モデル検出器の短文検出を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-29T15:25:00Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。