論文の概要: Identifying Machine-Paraphrased Plagiarism
- arxiv url: http://arxiv.org/abs/2103.11909v1
- Date: Mon, 22 Mar 2021 14:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 21:32:51.965011
- Title: Identifying Machine-Paraphrased Plagiarism
- Title(参考訳): 機械パラフレーズプラジャリズムの同定
- Authors: Jan Philip Wahle, Terry Ruas, Tom\'a\v{s} Folt\'ynek, Norman Meuschke,
Bela Gipp
- Abstract要約: 機械学習と最先端ニューラルネットワークモデルを組み合わせた5つの事前学習単語埋め込みモデルの有効性を評価した。
我々は研究論文、卒業論文、ウィキペディアの記事を要約した。
将来の研究を促進するために、すべてのデータ、コード、そして2つのWebアプリケーションに私たちのコントリビューションが公開されています。
- 参考スコア(独自算出の注目度): 5.353051766771479
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Employing paraphrasing tools to conceal plagiarized text is a severe threat
to academic integrity. To enable the detection of machine-paraphrased text, we
evaluate the effectiveness of five pre-trained word embedding models combined
with machine learning classifiers and state-of-the-art neural language models.
We analyze preprints of research papers, graduation theses, and Wikipedia
articles, which we paraphrased using different configurations of the tools
SpinBot and SpinnerChief. The best performing technique, Longformer, achieved
an average F1 score of 80.99% (F1=99.68% for SpinBot and F1=71.64% for
SpinnerChief cases), while human evaluators achieved F1=78.4% for SpinBot and
F1=65.6% for SpinnerChief cases. We show that the automated classification
alleviates shortcomings of widely-used text-matching systems, such as Turnitin
and PlagScan. To facilitate future research, all data, code, and two web
applications showcasing our contributions are openly available.
- Abstract(参考訳): 複写されたテキストを隠すためにパラフレージングツールを使うことは、学術的完全性に対する深刻な脅威である。
本研究では,機械学習の分類器と最先端のニューラルネットワークモデルを組み合わせた5つの単語埋め込みモデルの有効性を評価する。
研究論文,卒業論文,wikipedia記事のプレプリントを分析し,spinbotとspinnerchiefの異なる構成を用いてパラフローを行った。
最高のパフォーマンス技術であるLongformerは平均F1スコアを80.99%(Spinner ChiefのF1=99.68%、Spinner ChiefのF1=71.64%、Spinner ChiefのF1=78.4%、Spinner ChiefのF1=65.6%)とした。
自動分類は,TurnitinやPlagScanなど,広く使われているテキストマッチングシステムの欠点を軽減する。
将来の研究を促進するために、私たちの貢献を示すすべてのデータ、コード、および2つのwebアプリケーションがオープンに利用可能です。
関連論文リスト
- BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System [0.0]
GPT-3.5をベースとして,32,927対のテキストプラギアリズム検出データセットを生成する,プラギアライズされたテキストデータ生成手法を提案する。
また,BERT を用いた Faiss に基づく盗作識別手法を提案する。
このモデルの性能は, 98.86%, 98.90%, 98.86%, 0.9888, 精度, 精度, リコール, F1スコアなど, 様々な指標において他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-04-01T12:20:34Z) - Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。
すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。
その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文 参考訳(メタデータ) (2023-11-02T12:01:29Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - How Large Language Models are Transforming Machine-Paraphrased
Plagiarism [3.8768839735240737]
本研究は, arXiv, 学生論文, ウィキペディアの科学論文において, 機械パラフレーズ生成のための T5 と GPT-3 について検討する。
6つの自動解法と1つの商用プラジャリズム検出ソフトウェアの検出性能を評価した。
人間の専門家は、GPT-3が生成したパラフレーズの質を原文よりも高く評価する。
論文 参考訳(メタデータ) (2022-10-07T14:08:57Z) - Unsupervised and Distributional Detection of Machine-Generated Text [1.552214657968262]
自然言語生成モデルのパワーは、テキストが人間かマシンオーサリングされているかを検出する自動手法への関心の高まりを引き起こしている。
繰り返し高次n-gramを利用した機械生成文書の検出手法を提案する。
我々の実験は、その信号を利用することで、不審な文書を正確にランク付けできることを示している。
論文 参考訳(メタデータ) (2021-11-04T14:07:46Z) - Deep convolutional forest: a dynamic deep ensemble approach for spam
detection in text [219.15486286590016]
本稿では,スパム検出のための動的深層アンサンブルモデルを提案する。
その結果、このモデルは高い精度、リコール、f1スコア、98.38%の精度を達成した。
論文 参考訳(メタデータ) (2021-10-10T17:19:37Z) - Text Classification with Lexicon from PreAttention Mechanism [0.0]
包括的で高品質な辞書は、伝統的なテキスト分類アプローチにおいて重要な役割を果たす。
そこで本研究では,テキスト分類に対する事前注意機構を提案する。
スタンフォード大映画レビューのデータセットでは90.5%、主観性データセットでは82.3%、映画レビューでは93.7%の精度が得られた。
論文 参考訳(メタデータ) (2020-02-18T14:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。