Fugu-MT 論文翻訳(概要): BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System

論文の概要: BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System

arxiv url: http://arxiv.org/abs/2404.01582v1
Date: Mon, 1 Apr 2024 12:20:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 18:18:02.772593
Title: BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System
Title（参考訳）: BERTによる在宅プラジャリズム検出システムのための検索ツール
Authors: Jiarong Xian, Jibao Yuan, Peiwei Zheng, Dexian Chen,
Abstract要約: GPT-3.5をベースとして,32,927対のテキストプラギアリズム検出データセットを生成する,プラギアライズされたテキストデータ生成手法を提案する。また,BERT を用いた Faiss に基づく盗作識別手法を提案する。このモデルの性能は, 98.86%, 98.90%, 98.86%, 0.9888, 精度, 精度, リコール, F1スコアなど, 様々な指標において他のモデルよりも優れていた。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text plagiarism detection task is a common natural language processing task that aims to detect whether a given text contains plagiarism or copying from other texts. In existing research, detection of high level plagiarism is still a challenge due to the lack of high quality datasets. In this paper, we propose a plagiarized text data generation method based on GPT-3.5, which produces 32,927 pairs of text plagiarism detection datasets covering a wide range of plagiarism methods, bridging the gap in this part of research. Meanwhile, we propose a plagiarism identification method based on Faiss with BERT with high efficiency and high accuracy. Our experiments show that the performance of this model outperforms other models in several metrics, including 98.86\%, 98.90%, 98.86%, and 0.9888 for Accuracy, Precision, Recall, and F1 Score, respectively. At the end, we also provide a user-friendly demo platform that allows users to upload a text library and intuitively participate in the plagiarism analysis.
Abstract（参考訳）: テキストプラジャリズム検出タスクは、あるテキストにプラジャリズムが含まれているか、あるいは他のテキストからコピーされているかを検出することを目的とした、一般的な自然言語処理タスクである。既存の研究では、高品質なデータセットが欠如しているため、ハイレベルなプラジャリズムの検出は依然として課題である。本稿では,GPT-3.5をベースとして,多種多様なプラジャリズム手法をカバーする32,927組のテキストプラジャリズム検出データセットを生成し,そのギャップを埋める手法を提案する。一方,BERT を用いた Faiss に基づく盗作識別手法を提案する。このモデルの性能は, 精度, 精度, リコール, F1スコアにおいて, 98.86\%, 98.90%, 98.86%, および0.9888よりも優れていた。最後に、ユーザフレンドリなデモプラットフォームを提供し、ユーザーはテキストライブラリをアップロードし、直感的に盗作分析に参加できる。

関連論文リスト

Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。コード、事前トレーニングされたウェイト、デモがリリースされる。
論文参考訳（メタデータ） (2025-10-07T08:14:45Z)
Dare to Plagiarize? Plagiarized Painting Recognition and Retrieval [8.670873561640903]
我々は,画像の収集と生成AIを用いた画像の合成によりデータセットを構築した。まず、視覚基礎モデルDINOv2のオフザシェルフ機能を用いてベースラインアプローチを確立し、データベース内の最も類似した画像を検索する。データベースにサンプルした正と負のサンプルペアを用いて,DINOv2を計量学習損失で精査した。
論文参考訳（メタデータ） (2025-06-29T07:58:53Z)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
Enhancing Plagiarism Detection in Marathi with a Weighted Ensemble of TF-IDF and BERT Embeddings for Low-Resource Language Processing [0.0]
低リソース言語に適した堅牢な盗作検知システムを設計することが重要である。本稿では,マラタイ文字の盗作検出精度を高める手法を提案する。
論文参考訳（メタデータ） (2025-01-09T14:14:18Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.00910067533982]
LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
論文参考訳（メタデータ） (2024-07-09T17:58:18Z)
PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection [26.191836276118696]
46.5Kの合成プラギアリズムケースからなる包括的データセットであるPlagBenchを紹介する。次に,提案したデータを用いて,5つの近代LDMと3つの特殊プラジャリズムチェッカーの盗作検出性能を評価する。以上の結果より, GPT-3.5はLlama2やGPT-4に比べ, 高い品質のパラフレーズや要約を生じる傾向が示唆された。
論文参考訳（メタデータ） (2024-06-24T03:29:53Z)
Text Similarity from Image Contents using Statistical and Semantic Analysis Techniques [0.0]
画像コンテンツプラジャリズム検出(ICPD)は,高度な画像コンテンツ処理を利用して,プラジャリズムの事例を特定することで重要になっている。本稿では,図形,図形,表などの画像の盗作形態のコンテンツを検出するために実装されている。 JaccardやCosineといった統計アルゴリズムと共に、LSA、BERTのような意味論的アルゴリズムを導入し、WordNetは効率的で正確な盗作行為を検出するのに優れていた。
論文参考訳（メタデータ） (2023-08-24T15:06:04Z)
DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文参考訳（メタデータ） (2023-05-21T17:26:16Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文参考訳（メタデータ） (2023-03-26T21:12:36Z)
Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。 DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文参考訳（メタデータ） (2023-03-23T16:29:27Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
Paraphrase Identification with Deep Learning: A Review of Datasets and Methods [1.4325734372991794]
一般的なデータセットにおける特定のパラフレーズ型の表現不足が,盗作を検知する能力にどのように影響するかを検討する。パラフレーズのための新しいタイポロジーを導入し、検証する。我々は、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向を提案する。
論文参考訳（メタデータ） (2022-12-13T23:06:20Z)
How Large Language Models are Transforming Machine-Paraphrased Plagiarism [3.8768839735240737]
本研究は, arXiv, 学生論文, ウィキペディアの科学論文において, 機械パラフレーズ生成のための T5 と GPT-3 について検討する。 6つの自動解法と1つの商用プラジャリズム検出ソフトウェアの検出性能を評価した。人間の専門家は、GPT-3が生成したパラフレーズの質を原文よりも高く評価する。
論文参考訳（メタデータ） (2022-10-07T14:08:57Z)
Hamtajoo: A Persian Plagiarism Checker for Academic Manuscripts [0.0]
ハムタホオ(Hamtajoo)は、ペルシアの学術写本の盗作検知システムである。システム全体の構造と,各ステージで使用されるアルゴリズムについて述べる。提案システムの性能を評価するために,PAN規格に準拠した盗作検出コーパスを用いた。
論文参考訳（メタデータ） (2021-12-27T15:45:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。