論文の概要: BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System
- arxiv url: http://arxiv.org/abs/2404.01582v1
- Date: Mon, 1 Apr 2024 12:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 18:18:02.772593
- Title: BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System
- Title(参考訳): BERTによる在宅プラジャリズム検出システムのための検索ツール
- Authors: Jiarong Xian, Jibao Yuan, Peiwei Zheng, Dexian Chen,
- Abstract要約: GPT-3.5をベースとして,32,927対のテキストプラギアリズム検出データセットを生成する,プラギアライズされたテキストデータ生成手法を提案する。
また,BERT を用いた Faiss に基づく盗作識別手法を提案する。
このモデルの性能は, 98.86%, 98.90%, 98.86%, 0.9888, 精度, 精度, リコール, F1スコアなど, 様々な指標において他のモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text plagiarism detection task is a common natural language processing task that aims to detect whether a given text contains plagiarism or copying from other texts. In existing research, detection of high level plagiarism is still a challenge due to the lack of high quality datasets. In this paper, we propose a plagiarized text data generation method based on GPT-3.5, which produces 32,927 pairs of text plagiarism detection datasets covering a wide range of plagiarism methods, bridging the gap in this part of research. Meanwhile, we propose a plagiarism identification method based on Faiss with BERT with high efficiency and high accuracy. Our experiments show that the performance of this model outperforms other models in several metrics, including 98.86\%, 98.90%, 98.86%, and 0.9888 for Accuracy, Precision, Recall, and F1 Score, respectively. At the end, we also provide a user-friendly demo platform that allows users to upload a text library and intuitively participate in the plagiarism analysis.
- Abstract(参考訳): テキストプラジャリズム検出タスクは、あるテキストにプラジャリズムが含まれているか、あるいは他のテキストからコピーされているかを検出することを目的とした、一般的な自然言語処理タスクである。
既存の研究では、高品質なデータセットが欠如しているため、ハイレベルなプラジャリズムの検出は依然として課題である。
本稿では,GPT-3.5をベースとして,多種多様なプラジャリズム手法をカバーする32,927組のテキストプラジャリズム検出データセットを生成し,そのギャップを埋める手法を提案する。
一方,BERT を用いた Faiss に基づく盗作識別手法を提案する。
このモデルの性能は, 精度, 精度, リコール, F1スコアにおいて, 98.86\%, 98.90%, 98.86%, および0.9888よりも優れていた。
最後に、ユーザフレンドリなデモプラットフォームを提供し、ユーザーはテキストライブラリをアップロードし、直感的に盗作分析に参加できる。
関連論文リスト
- Text Similarity from Image Contents using Statistical and Semantic
Analysis Techniques [0.0]
画像コンテンツプラジャリズム検出(ICPD)は,高度な画像コンテンツ処理を利用して,プラジャリズムの事例を特定することで重要になっている。
本稿では,図形,図形,表などの画像の盗作形態のコンテンツを検出するために実装されている。
JaccardやCosineといった統計アルゴリズムと共に、LSA、BERTのような意味論的アルゴリズムを導入し、WordNetは効率的で正確な盗作行為を検出するのに優れていた。
論文 参考訳(メタデータ) (2023-08-24T15:06:04Z) - LLM Paternity Test: Generated Text Detection with LLM Genetic Inheritance [58.63888295471187]
大きな言語モデル(LLM)は、様々な誤用のリスクを負うテキストを生成することができる。
モデル関連テキスト検出手法 LLM Paternity Test (LLM-Pat) を提案する。
高い類似性は、候補テキストが遺伝的特性に似た機械生成であることを示している。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - How Large Language Models are Transforming Machine-Paraphrased
Plagiarism [3.8768839735240737]
本研究は, arXiv, 学生論文, ウィキペディアの科学論文において, 機械パラフレーズ生成のための T5 と GPT-3 について検討する。
6つの自動解法と1つの商用プラジャリズム検出ソフトウェアの検出性能を評価した。
人間の専門家は、GPT-3が生成したパラフレーズの質を原文よりも高く評価する。
論文 参考訳(メタデータ) (2022-10-07T14:08:57Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - A Survey of Plagiarism Detection Systems: Case of Use with English,
French and Arabic Languages [0.0]
本稿では,アラビア語,フランス語,英語の学術的・教育的な場面で使用するための盗作検知システムの概要について述べる。
また, 本研究の文脈において, 技術形態を詳細に検討した。
論文 参考訳(メタデータ) (2022-01-10T16:11:54Z) - Hamtajoo: A Persian Plagiarism Checker for Academic Manuscripts [0.0]
ハムタホオ(Hamtajoo)は、ペルシアの学術写本の盗作検知システムである。
システム全体の構造と,各ステージで使用されるアルゴリズムについて述べる。
提案システムの性能を評価するために,PAN規格に準拠した盗作検出コーパスを用いた。
論文 参考訳(メタデータ) (2021-12-27T15:45:35Z) - Analyzing Non-Textual Content Elements to Detect Academic Plagiarism [0.8490310884703459]
論文では、学術文書における非テクスト内容の分析という、異なる概念を実装する盗作検出アプローチを提案する。
非テキストとテキストをベースとした検出手法を組み合わせる利点を示すために、論文では、引用に基づく、画像に基づく、数学に基づく、テキストベースの文書類似性の分析を統合する最初のプラジャリズム検出システムを記述する。
論文 参考訳(メタデータ) (2021-06-10T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。