論文の概要: Detecting AI Generated Text Based on NLP and Machine Learning Approaches
- arxiv url: http://arxiv.org/abs/2404.10032v1
- Date: Mon, 15 Apr 2024 16:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 20:58:20.035659
- Title: Detecting AI Generated Text Based on NLP and Machine Learning Approaches
- Title(参考訳): NLPと機械学習アプローチに基づくAI生成テキストの検出
- Authors: Nuzhat Prova,
- Abstract要約: 自然言語処理の最近の進歩により、AIモデルは将来、人間が書いた書式と同一の書体を生成することができる。
これには深い倫理的、法的、社会的反感があるかもしれない。
本手法は,電子テキストと人文テキストを区別する機械学習手法を含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in natural language processing (NLP) may enable artificial intelligence (AI) models to generate writing that is identical to human written form in the future. This might have profound ethical, legal, and social repercussions. This study aims to address this problem by offering an accurate AI detector model that can differentiate between electronically produced text and human-written text. Our approach includes machine learning methods such as XGB Classifier, SVM, BERT architecture deep learning models. Furthermore, our results show that the BERT performs better than previous models in identifying information generated by AI from information provided by humans. Provide a comprehensive analysis of the current state of AI-generated text identification in our assessment of pertinent studies. Our testing yielded positive findings, showing that our strategy is successful, with the BERT emerging as the most probable answer. We analyze the research's societal implications, highlighting the possible advantages for various industries while addressing sustainability issues pertaining to morality and the environment. The XGB classifier and SVM give 0.84 and 0.81 accuracy in this article, respectively. The greatest accuracy in this research is provided by the BERT model, which provides 0.93% accuracy.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、人工知能(AI)モデルによって、将来的には人間が書いた書式と同一の書式を生成できる可能性がある。
これには深い倫理的、法的、社会的反感があるかもしれない。
本研究は,電子テキストと人文テキストを区別できる精度の高いAI検出モデルを提供することにより,この問題に対処することを目的とする。
我々のアプローチには、XGB Classifier、SVM、BERTアーキテクチャのディープラーニングモデルなどの機械学習手法が含まれています。
さらに,本研究の結果から,BERTは人間の提供した情報からAIが生成した情報を特定する上で,従来のモデルよりも優れた性能を示した。
関連する研究の評価において,AIによるテキスト識別の現状を包括的に分析する。
BERTは最も有望な回答として浮上し,我々の戦略が成功していることを示す結果が得られた。
本研究の社会的意味を分析し,モラルと環境に関するサステナビリティ問題に対処しつつ,様々な産業のメリットを浮き彫りにしている。
XGB分類器とSVMはそれぞれ0.84と0.81の精度を与える。
この研究における最大の精度は、0.93%の精度を提供するBERTモデルによって提供される。
関連論文リスト
- Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。
提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T15:44:56Z) - Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。
提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。
実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文 参考訳(メタデータ) (2024-05-30T17:38:44Z) - AI Content Self-Detection for Transformer-based Large Language Models [0.0]
本稿では、直接起点検出の概念を導入し、生成型AIシステムが出力を認識し、人文テキストと区別できるかどうかを評価する。
GoogleのBardモデルは、精度94%の自己検出の最大の能力を示し、OpenAIのChatGPTは83%である。
論文 参考訳(メタデータ) (2023-12-28T10:08:57Z) - Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing
AI-Generated Text [0.0]
私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。
さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。
論文 参考訳(メタデータ) (2023-11-27T06:26:53Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - Detection of Fake Generated Scientific Abstracts [0.9525711971667679]
学術コミュニティは、現実と人工的に生成されたものとを区別することの難しさについて懸念を表明している。
本研究では,GPT-3モデルを用いて,人工知能による科学論文の要約を生成する。
本稿では,機械学習モデルと組み合わせたテキスト表現手法について検討する。
論文 参考訳(メタデータ) (2023-04-12T20:20:22Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。