論文の概要: BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System
- arxiv url: http://arxiv.org/abs/2404.01582v2
- Date: Sun, 28 Jul 2024 13:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 23:37:56.094938
- Title: BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System
- Title(参考訳): BERTによる在宅プラジャリズム検出システムのための検索ツール
- Authors: Jiarong Xian, Jibao Yuan, Peiwei Zheng, Dexian Chen, Nie yuntao,
- Abstract要約: GPT-3.5をベースとして,32,927対のテキストプラギアリズム検出データセットを生成する,プラギアライズされたテキストデータ生成手法を提案する。
また,BERT を用いた Faiss に基づく盗作識別手法を提案する。
このモデルの性能は, 98.86%, 98.90%, 98.86%, 0.9888, 精度, 精度, リコール, F1スコアなど, 様々な指標において他のモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text plagiarism detection task is a common natural language processing task that aims to detect whether a given text contains plagiarism or copying from other texts. In existing research, detection of high level plagiarism is still a challenge due to the lack of high quality datasets. In this paper, we propose a plagiarized text data generation method based on GPT-3.5, which produces 32,927 pairs of text plagiarism detection datasets covering a wide range of plagiarism methods, bridging the gap in this part of research. Meanwhile, we propose a plagiarism identification method based on Faiss with BERT with high efficiency and high accuracy. Our experiments show that the performance of this model outperforms other models in several metrics, including 98.86\%, 98.90%, 98.86%, and 0.9888 for Accuracy, Precision, Recall, and F1 Score, respectively. At the end, we also provide a user-friendly demo platform that allows users to upload a text library and intuitively participate in the plagiarism analysis.
- Abstract(参考訳): テキストプラジャリズム検出タスクは、あるテキストにプラジャリズムが含まれているか、あるいは他のテキストからコピーされているかを検出することを目的とした、一般的な自然言語処理タスクである。
既存の研究では、高品質なデータセットが欠如しているため、ハイレベルなプラジャリズムの検出は依然として課題である。
本稿では,GPT-3.5をベースとして,多種多様なプラジャリズム手法をカバーする32,927組のテキストプラジャリズム検出データセットを生成し,そのギャップを埋める手法を提案する。
一方,BERT を用いた Faiss に基づく盗作識別手法を提案する。
このモデルの性能は, 精度, 精度, リコール, F1スコアにおいて, 98.86\%, 98.90%, 98.86%, および0.9888よりも優れていた。
最後に、ユーザフレンドリなデモプラットフォームを提供し、ユーザーはテキストライブラリをアップロードし、直感的に盗作分析に参加できる。
関連論文リスト
- CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.00910067533982]
LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。
リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
論文 参考訳(メタデータ) (2024-07-09T17:58:18Z) - PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection [26.191836276118696]
46.5Kの合成プラギアリズムケースからなる包括的データセットであるPlagBenchを紹介する。
次に,提案したデータを用いて,5つの近代LDMと3つの特殊プラジャリズムチェッカーの盗作検出性能を評価する。
以上の結果より, GPT-3.5はLlama2やGPT-4に比べ, 高い品質のパラフレーズや要約を生じる傾向が示唆された。
論文 参考訳(メタデータ) (2024-06-24T03:29:53Z) - Text Similarity from Image Contents using Statistical and Semantic
Analysis Techniques [0.0]
画像コンテンツプラジャリズム検出(ICPD)は,高度な画像コンテンツ処理を利用して,プラジャリズムの事例を特定することで重要になっている。
本稿では,図形,図形,表などの画像の盗作形態のコンテンツを検出するために実装されている。
JaccardやCosineといった統計アルゴリズムと共に、LSA、BERTのような意味論的アルゴリズムを導入し、WordNetは効率的で正確な盗作行為を検出するのに優れていた。
論文 参考訳(メタデータ) (2023-08-24T15:06:04Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Paraphrase Identification with Deep Learning: A Review of Datasets and Methods [1.4325734372991794]
一般的なデータセットにおける特定のパラフレーズ型の表現不足が,盗作を検知する能力にどのように影響するかを検討する。
パラフレーズのための新しいタイポロジーを導入し、検証する。
我々は、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向を提案する。
論文 参考訳(メタデータ) (2022-12-13T23:06:20Z) - How Large Language Models are Transforming Machine-Paraphrased
Plagiarism [3.8768839735240737]
本研究は, arXiv, 学生論文, ウィキペディアの科学論文において, 機械パラフレーズ生成のための T5 と GPT-3 について検討する。
6つの自動解法と1つの商用プラジャリズム検出ソフトウェアの検出性能を評価した。
人間の専門家は、GPT-3が生成したパラフレーズの質を原文よりも高く評価する。
論文 参考訳(メタデータ) (2022-10-07T14:08:57Z) - Hamtajoo: A Persian Plagiarism Checker for Academic Manuscripts [0.0]
ハムタホオ(Hamtajoo)は、ペルシアの学術写本の盗作検知システムである。
システム全体の構造と,各ステージで使用されるアルゴリズムについて述べる。
提案システムの性能を評価するために,PAN規格に準拠した盗作検出コーパスを用いた。
論文 参考訳(メタデータ) (2021-12-27T15:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。