論文の概要: Can Code Evaluation Metrics Detect Code Plagiarism?
- arxiv url: http://arxiv.org/abs/2604.25778v1
- Date: Tue, 28 Apr 2026 15:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.929894
- Title: Can Code Evaluation Metrics Detect Code Plagiarism?
- Title(参考訳): コード評価メトリクスはコードプラジャリズムを検出できるか?
- Authors: Fahad Ebrahim, Mike Joy,
- Abstract要約: CEM(Code Evaluation Metrics)は、コード生成タスクを評価するために開発されたメトリクスである。
我々は、CodeBLEU、CrystalBLEU、RUBY、Tree Structured Edit Distance (TSED)、CodeBERTScoreの5つのCEMを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Source Code Plagiarism Detection (SCPD) plays an important role in maintaining fairness and academic integrity in software engineering education. Code Evaluation Metrics (CEMs) are developed for assessing code generation tasks. However, it remains unclear whether such metrics can reliably detect plagiarism across different levels of modification (L1-L6), increasing in complexity. In this paper, we perform a comparative empirical study using two open-source labelled datasets, ConPlag (raw and template-free versions) and IRPlag. We evaluate five CEMs, namely CodeBLEU, CrystalBLEU, RUBY, Tree Structured Edit Distance (TSED), and CodeBERTScore. The performance is evaluated using threshold-free ranking-based measures to assess overall, per dataset, and per-level plagiarism performance. The results are compared against state-of-the-art (SOTA) Source Code Plagiarism Detection Tools (SCPDTs), JPlag and Dolos. Our findings show that without preprocessing, Dolos achieves the highest overall ranking performance, while among the individual metrics, CrystalBLEU, CodeBLEU, and RUBY outperform JPlag. Performance is strongest at L1 and drops from L4 onward, while CrystalBLEU remains competitive on L6. With preprocessing, CrystalBLEU surpasses Dolos overall. Per dataset, Dolos achieved the best ranking on the ConPlag raw dataset, while CrystalBLEU was the best-performing metric on the remaining datasets. At the plagiarism levels, Dolos remains strongest on L4, while Crystal-BLEU leads most of the remaining difficult levels. These results indicate that CEMs are comparable to dedicated tools in terms of ranking metrics.
- Abstract(参考訳): ソースコードプラジャリズム検出(SCPD)は、ソフトウェア工学教育における公平性と学術的整合性を維持する上で重要な役割を果たす。
CEM(Code Evaluation Metrics)は、コード生成タスクを評価するために開発されたメトリクスである。
しかし、そのような指標が様々なレベルの修正(L1-L6)を確実に検出できるかどうかは不明であり、複雑さが増す。
本稿では,オープンソースのラベル付きデータセットであるConPlag(生版とテンプレートフリー版)とIRPlagを用いて比較実験を行った。
我々は、CodeBLEU、CrystalBLEU、RUBY、Tree Structured Edit Distance (TSED)、CodeBERTScoreの5つのCEMを評価した。
評価はしきい値のないランキングベースで評価され、全体、データセット、レベルごとのプラジャリズムのパフォーマンスが評価される。
結果は、最先端(SOTA)ソースコードプラジャリズム検出ツール(SCPDT)、JPlag、Dolosと比較される。
以上の結果から,プリプロセッシングなしでは,個々の指標のうち,CrystalBLEU,CodeBLEU,RUBYがJPlagを上回った。
L1ではパフォーマンスが最強で、L4以降は低下するが、CrystalBLEUはL6では競争力を維持している。
プリプロセッシングにより、CrystalBLEUはドロスを抜いた。
データセット当たり、DolosはConPlagの生データセットで最高のランキングを獲得し、CrystalBLEUは残りのデータセットで最高のパフォーマンスの指標だった。
プラジャリズムレベルでは、ドロスはL4で最強であり、クリスタル-BLEUは残りの難易度の大半をリードする。
これらの結果は、CEMはランキングの指標に関して専用のツールに匹敵することを示している。
関連論文リスト
- CLARC: C/C++ Benchmark for Robust Code Search [2.225731679677886]
現実のGitHubリポジトリから構築されたC/C++ベンチマークであるCLARCを紹介します。
Clarcには、評価用の1,245のクエリコードペアと、トレーニング用の5,472のペアが含まれている。
論文 参考訳(メタデータ) (2026-03-04T18:57:37Z) - Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。
本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文 参考訳(メタデータ) (2026-01-09T02:38:24Z) - CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning [17.316444989311993]
私たちはCodeSenseという,一連のきめ細かいコード推論タスクを利用できる最初のベンチマークを提案しています。
この結果から,モデルが微粒な推論処理を行う場合の性能差が明らかとなった。
当社の作業では,詳細なSE推論タスクに対して,真理を簡単に収集することのできる実行トレースフレームワークとツールセットを作成しました。
論文 参考訳(メタデータ) (2025-05-31T23:32:01Z) - Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。
既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。
そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文 参考訳(メタデータ) (2025-03-04T05:39:24Z) - RankCoT: Refining Knowledge for Retrieval-Augmented Generation through Ranking Chain-of-Thoughts [23.383151362974488]
RankCoTは、CoTをベースとした要約生成において、再ランク信号を含む知識改善手法である。
実験では,RangCoTの有効性を実証し,他の知識改善モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-02-25T06:18:05Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - RankT5: Fine-Tuning T5 for Text Ranking with Ranking Losses [39.67403439576671]
本稿では,2つのT5ベースのランキングモデル構造,エンコーダデコーダとエンコーダのみのランキングモデルを提案する。
実験の結果,提案したランキング損失モデルでは,異なる公開テキストランキングデータセットに対して,実質的なランキング性能向上が達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-12T20:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。