論文の概要: Overview of the Plagiarism Detection Task at PAN 2025
- arxiv url: http://arxiv.org/abs/2510.06805v1
- Date: Wed, 08 Oct 2025 09:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.390186
- Title: Overview of the Plagiarism Detection Task at PAN 2025
- Title(参考訳): PAN2025におけるプラジャリズム検出タスクの概要
- Authors: André Greiner-Petter, Maik Fröbe, Jan Philip Wahle, Terry Ruas, Bela Gipp, Akiko Aizawa, Martin Potthast,
- Abstract要約: 我々は、Llama、DeepSeek-R1、Mistralの3つの大きな言語モデルを用いて、自動生成されたプラジャリズムの新たな大規模データセットを作成しました。
本稿では,本データセットの作成について概説し,すべての参加者と4つのベースラインの結果の要約と比較を行った。
- 参考スコア(独自算出の注目度): 41.899055581824314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generative plagiarism detection task at PAN 2025 aims at identifying automatically generated textual plagiarism in scientific articles and aligning them with their respective sources. We created a novel large-scale dataset of automatically generated plagiarism using three large language models: Llama, DeepSeek-R1, and Mistral. In this task overview paper, we outline the creation of this dataset, summarize and compare the results of all participants and four baselines, and evaluate the results on the last plagiarism detection task from PAN 2015 in order to interpret the robustness of the proposed approaches. We found that the current iteration does not invite a large variety of approaches as naive semantic similarity approaches based on embedding vectors provide promising results of up to 0.8 recall and 0.5 precision. In contrast, most of these approaches underperform significantly on the 2015 dataset, indicating a lack in generalizability.
- Abstract(参考訳): PAN 2025における生成的盗作検出タスクは、科学論文における自動生成されたテキスト盗作を識別し、それらをそれぞれの情報源と整合させることを目的としている。
我々は、Llama、DeepSeek-R1、Mistralの3つの大きな言語モデルを用いて、自動生成されたプラジャリズムの新たな大規模データセットを作成しました。
本課題概要報告では,本データセットの作成について概説し,すべての参加者と4つのベースラインの結果を要約,比較し,提案手法のロバスト性を理解するため,PAN 2015における最後のプラジャリズム検出課題について評価する。
埋め込みベクトルに基づく意味的類似性アプローチは、最大0.8リコールと0.5精度の有望な結果をもたらす。
対照的に、これらのアプローチのほとんどは2015年のデータセットで大幅にパフォーマンスが低下しており、一般化性の欠如を示している。
関連論文リスト
- Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text [30.74255946385862]
テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。
1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。
これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
論文 参考訳(メタデータ) (2025-07-26T14:59:04Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System [0.0]
GPT-3.5をベースとして,32,927対のテキストプラギアリズム検出データセットを生成する,プラギアライズされたテキストデータ生成手法を提案する。
また,BERT を用いた Faiss に基づく盗作識別手法を提案する。
このモデルの性能は, 98.86%, 98.90%, 98.86%, 0.9888, 精度, 精度, リコール, F1スコアなど, 様々な指標において他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-04-01T12:20:34Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Transferring BERT-like Transformers' Knowledge for Authorship
Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。
我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:57:29Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。