Fugu-MT 論文翻訳(概要): PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection

論文の概要: PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection

arxiv url: http://arxiv.org/abs/2406.16288v2
Date: Sat, 15 Feb 2025 23:40:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.274504
Title: PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection
Title（参考訳）: PlagBench: プラジャリズムの生成と検出における大規模言語モデルの重複を探る
Authors: Jooyoung Lee, Toshini Agrawal, Adaku Uchendu, Thai Le, Jinghui Chen, Dongwon Lee,
Abstract要約: 46.5Kの合成テキストペアのデータセットである textbfsf PlagBench を紹介する。 PlagBenchは、きめ細かい自動評価と人間のアノテーションを組み合わせることで検証される。 GPT-3.5 Turbo は GPT-4 Turbo と比較してテキストの複雑さを著しく増大させることなく高品質なパラフレーズや要約を生成できることを示す。
参考スコア（独自算出の注目度）: 26.191836276118696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies have raised concerns about the potential threats large language models (LLMs) pose to academic integrity and copyright protection. Yet, their investigation is predominantly focused on literal copies of original texts. Also, how LLMs can facilitate the detection of LLM-generated plagiarism remains largely unexplored. To address these gaps, we introduce \textbf{{\sf PlagBench}}, a dataset of 46.5K synthetic text pairs that represent three major types of plagiarism: verbatim copying, paraphrasing, and summarization. These samples are generated by three advanced LLMs. We rigorously validate the quality of PlagBench through a combination of fine-grained automatic evaluation and human annotation. We then utilize this dataset for two purposes: (1) to examine LLMs' ability to transform original content into accurate paraphrases and summaries, and (2) to evaluate the plagiarism detection performance of five modern LLMs alongside three specialized plagiarism checkers. Our results show that GPT-3.5 Turbo can produce high-quality paraphrases and summaries without significantly increasing text complexity compared to GPT-4 Turbo. However, in terms of detection, GPT-4 outperforms other LLMs and commercial detection tools by 20%, highlights the evolving capabilities of LLMs not only in content generation but also in plagiarism detection. Data and source code are available at https://github.com/Brit7777/plagbench.
Abstract（参考訳）: 近年の研究では、学術的完全性と著作権保護に対する大きな言語モデル(LLM)の脅威が懸念されている。しかし、彼らの調査は主に原文の写しの写しに焦点が当てられている。また、LLMがどのようにしてLLM生成プラジアリズムの検出を促進するかは、まだ明らかになっていない。これらのギャップに対処するために、46.5Kの合成テキストペアからなるデータセットである \textbf{{\sf PlagBench}} を導入する。これらのサンプルは、3つの高度なLCMによって生成される。詳細な自動評価と人間のアノテーションを組み合わせることで,PlagBenchの品質を厳格に検証する。次に,本データセットを,(1)オリジナルコンテンツを正確なパラフレーズや要約に変換する能力,(2)近代LLM5種の盗作検出性能を3つの専門的盗作チェッカーとともに評価すること,の2つの目的で利用した。その結果, GPT-3.5 Turbo は GPT-4 Turbo と比較してテキストの複雑さを著しく増大させることなく, 高品質なパラフレーズや要約を生成できることが示唆された。しかし、検出に関しては、GPT-4は他のLCMや商用検出ツールを20%上回り、コンテンツ生成だけでなく、盗作検出においてもLLMの進化する能力を強調している。データとソースコードはhttps://github.com/Brit7777/plagbench.comで入手できる。

関連論文リスト

Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文参考訳（メタデータ） (2024-07-24T16:53:09Z)
CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.00910067533982]
LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
論文参考訳（メタデータ） (2024-07-09T17:58:18Z)
FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models [38.76912842622624]
プレトレーニング言語モデル(PLM)は、様々な自然言語生成(NLG)タスクにおいて印象的な結果を示している。本研究では, PLMが生成するテキストの独創性を高めることを目的とした, 独特な「自己プラギアリズム」コントラスト的復号戦略を提案する。
論文参考訳（メタデータ） (2024-06-02T19:17:00Z)
BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System [0.0]
GPT-3.5をベースとして,32,927対のテキストプラギアリズム検出データセットを生成する,プラギアライズされたテキストデータ生成手法を提案する。また,BERT を用いた Faiss に基づく盗作識別手法を提案する。このモデルの性能は, 98.86%, 98.90%, 98.86%, 0.9888, 精度, 精度, リコール, F1スコアなど, 様々な指標において他のモデルよりも優れていた。
論文参考訳（メタデータ） (2024-04-01T12:20:34Z)
Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文参考訳（メタデータ） (2024-03-04T05:57:50Z)
Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models [63.91178922306669]
大規模言語モデル(LLM)に対するテキスト保護機構であるSilent Guardianを紹介する。保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。本研究では,SGがターゲットテキストを種々の構成で効果的に保護し,保護成功率の約100%を達成できることを示す。
論文参考訳（メタデータ） (2023-12-15T10:30:36Z)
Fighting Fire with Fire: The Dual Role of LLMs in Crafting and Detecting Elusive Disinformation [7.782551258221384]
大規模言語モデル(LLM)の最近のユビキティと破壊的な影響は、それらが誤用される可能性を懸念している。本稿では,近代LLMの創発的・創発的推論能力を活用する新しい「火災を伴う火災(Fighting Fire with Fire)」戦略を提案する。 GPT-3.5-turboの精度は68-72%であった。
論文参考訳（メタデータ） (2023-10-24T04:50:29Z)
Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。我々はこの問題を透かしによって取り組めることを示した。本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:57Z)
Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文参考訳（メタデータ） (2023-07-29T14:11:15Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)
Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。 LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。本稿では,LLMの研究への3つの貢献について述べる。
論文参考訳（メタデータ） (2023-04-25T01:47:05Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)
How Large Language Models are Transforming Machine-Paraphrased Plagiarism [3.8768839735240737]
本研究は, arXiv, 学生論文, ウィキペディアの科学論文において, 機械パラフレーズ生成のための T5 と GPT-3 について検討する。 6つの自動解法と1つの商用プラジャリズム検出ソフトウェアの検出性能を評価した。人間の専門家は、GPT-3が生成したパラフレーズの質を原文よりも高く評価する。
論文参考訳（メタデータ） (2022-10-07T14:08:57Z)
Do Language Models Plagiarize? [22.02731537718498]
人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
論文参考訳（メタデータ） (2022-03-15T03:11:11Z)
Hamtajoo: A Persian Plagiarism Checker for Academic Manuscripts [0.0]
ハムタホオ(Hamtajoo)は、ペルシアの学術写本の盗作検知システムである。システム全体の構造と,各ステージで使用されるアルゴリズムについて述べる。提案システムの性能を評価するために,PAN規格に準拠した盗作検出コーパスを用いた。
論文参考訳（メタデータ） (2021-12-27T15:45:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。