論文の概要: AI-Generated Text Detection and Classification Based on BERT Deep Learning Algorithm
- arxiv url: http://arxiv.org/abs/2405.16422v1
- Date: Sun, 26 May 2024 04:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 21:18:20.899237
- Title: AI-Generated Text Detection and Classification Based on BERT Deep Learning Algorithm
- Title(参考訳): BERTディープラーニングアルゴリズムに基づくAI生成テキストの検出と分類
- Authors: Hao Wang, Jianwei Li, Zhengyu Li,
- Abstract要約: 本研究では,BERTアルゴリズムに基づく効率的なAI生成テキスト検出モデルを提案する。
精度は初期94.78%から99.72%に上昇し、損失値は0.261から0.021に減少し、徐々に収束する。
損失値に関しては、トレーニングセットの平均損失は0.0565、テストセットの平均損失は0.0917であり、損失値がわずかに高い。
- 参考スコア(独自算出の注目度): 10.5960023194262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-generated text detection plays an increasingly important role in various fields. In this study, we developed an efficient AI-generated text detection model based on the BERT algorithm, which provides new ideas and methods for solving related problems. In the data preprocessing stage, a series of steps were taken to process the text, including operations such as converting to lowercase, word splitting, removing stop words, stemming extraction, removing digits, and eliminating redundant spaces, to ensure data quality and accuracy. By dividing the dataset into a training set and a test set in the ratio of 60% and 40%, and observing the changes in the accuracy and loss values during the training process, we found that the model performed well during the training process. The accuracy increases steadily from the initial 94.78% to 99.72%, while the loss value decreases from 0.261 to 0.021 and converges gradually, which indicates that the BERT model is able to detect AI-generated text with high accuracy and the prediction results are gradually approaching the real classification results. Further analysis of the results of the training and test sets reveals that in terms of loss value, the average loss of the training set is 0.0565, while the average loss of the test set is 0.0917, showing a slightly higher loss value. As for the accuracy, the average accuracy of the training set reaches 98.1%, while the average accuracy of the test set is 97.71%, which is not much different from each other, indicating that the model has good generalisation ability. In conclusion, the AI-generated text detection model based on the BERT algorithm proposed in this study shows high accuracy and stability in experiments, providing an effective solution for related fields.
- Abstract(参考訳): AIが生成するテキスト検出は、さまざまな分野でますます重要な役割を担っている。
本研究では,BERTアルゴリズムに基づく効率的なAI生成テキスト検出モデルを構築し,関連する問題を解決するための新しいアイデアと方法を提案する。
データ前処理の段階では、小文字への変換、単語分割、停止単語の除去、ストーミング抽出、桁の除去、冗長空間の除去など、テキストの処理の一連のステップが取られ、データ品質と精度が保証された。
データセットをトレーニングセットとテストセットに60%と40%の比率で分割し、トレーニングプロセス中の精度と損失値の変化を観察することにより、トレーニングプロセス中にモデルが良好に動作することを発見した。
精度は初期94.78%から99.72%に増加し、損失値は0.261から0.021に減少し、徐々に収束し、BERTモデルはAI生成テキストを高い精度で検出でき、予測結果が実際の分類結果に徐々に接近していることを示す。
さらに、トレーニングセットとテストセットの結果を分析してみると、損失値の点で、トレーニングセットの平均損失は0.0565であり、テストセットの平均損失は0.0917であり、損失値がわずかに高いことが分かる。
精度については、トレーニングセットの平均精度は98.1%に達するが、テストセットの平均精度は97.71%であり、これは互いに大きく異なるものではなく、モデルが優れた一般化能力を持っていることを示している。
結論として,本研究で提案したBERTアルゴリズムに基づくAI生成テキスト検出モデルは,実験において高い精度と安定性を示し,関連分野の効果的な解法を提供する。
関連論文リスト
- Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Text Sentiment Analysis and Classification Based on Bidirectional Gated Recurrent Units (GRUs) Model [6.096738978232722]
本稿では,自然言語処理分野におけるテキスト感情分析と分類の重要性について考察する。
双方向ゲート再帰単位(GRU)モデルに基づく感情分析と分類の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-26T02:40:03Z) - Large Language Model (LLM) AI text generation detection based on transformer deep learning algorithm [0.9004420912552793]
トランスフォーマーモデルを用いてAIテキスト生成を検出するツールを開発する。
ディープラーニングモデルは、テキスト分類やシーケンスラベリングタスクのためにLSTM、Transformer、CNNなどのレイヤを組み合わせる。
このモデルはAI生成テキストの99%の予測精度を持ち、精度は0.99、リコールは1、f1スコアは0.99であり、非常に高い分類精度を達成する。
論文 参考訳(メタデータ) (2024-04-06T06:22:45Z) - Efficient human-in-loop deep learning model training with iterative
refinement and statistical result validation [0.0]
本稿では,超音波イメージング機械学習パイプラインのデータクリーニングに必要なセグメンテーションを作成する方法を紹介する。
本研究では、自動生成したトレーニングデータと人間の視覚的チェックを高速に活用し、時間とコストを低く保ちながら、モデルの精度を向上させる4段階の手法を提案する。
本手法は、静的PHIを含む背景データを除去し、心臓超音波セグメンテーションタスクで実演する。
論文 参考訳(メタデータ) (2023-04-03T13:56:01Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Detecting Errors and Estimating Accuracy on Unlabeled Data with
Self-training Ensembles [38.23896575179384]
本稿では,この2つの課題に同時に対処する,原則的かつ実用的な枠組みを提案する。
1つのインスタンス化は、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
論文 参考訳(メタデータ) (2021-06-29T21:32:51Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - TAVAT: Token-Aware Virtual Adversarial Training for Language
Understanding [55.16953347580948]
グラディエントベースの敵トレーニングは、ニューラルネットワークの堅牢性向上に広く利用されている。
埋め込み空間が離散であるため、自然言語処理タスクに容易に適応することはできない。
微粒な摂動を創り出すためのトークン認識仮想アドリアリトレーニング法を提案する。
論文 参考訳(メタデータ) (2020-04-30T02:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。