論文の概要: Measuring Plagiarism in Introductory Programming Course Assignments
- arxiv url: http://arxiv.org/abs/2205.08520v1
- Date: Fri, 29 Apr 2022 17:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-22 12:17:58.712565
- Title: Measuring Plagiarism in Introductory Programming Course Assignments
- Title(参考訳): プログラミング入門科目におけるプラジャリズムの測定
- Authors: Muhammad Humayoun, Muhammad Adnan Hashmi and Ali Hanzala Khan
- Abstract要約: 本稿では,C++で記述された入門プログラミングコースにおける盗作の方法とその検出について論じる。
3つのトークンベースの類似性メソッドを機能として使用し、そのソリューションがプラジャイズされているかどうかを予測する一般的なフレームワークが開発されている。
F1スコアはオリジナルおよび合成データセットで0.955と0.971を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Measuring plagiarism in programming assignments is an essential task to the
educational procedure. This paper discusses the methods of plagiarism and its
detection in introductory programming course assignments written in C++. A
small corpus of assignments is made publically available. A general framework
to compute the similarity between a solution pair is developed that uses the
three token-based similarity methods as features and predicts if the solution
is plagiarized. The importance of each feature is also measured, which in
return ranks the effectiveness of each method in use. Finally, the artificially
generated dataset improves the results compared to the original data. We
achieved an F1 score of 0.955 and 0.971 on original and synthetic datasets.
- Abstract(参考訳): プログラミング課題における盗作行為の測定は、教育手続きに不可欠な課題である。
本稿では,C++で記述された入門プログラミングコースにおける盗作の方法とその検出について論じる。
割り当ての小さなコーパスが公開されています。
解対間の類似性を計算する汎用フレームワークを開発した。3つのトークンベースの類似性を特徴とし、解が盗用されているかどうかを予測する。
それぞれの特徴の重要性も測定され、その見返りとして各方法の有効性が評価される。
最後に、人工的に生成されたデータセットは、元のデータと比較して結果を改善する。
F1スコアはオリジナルおよび合成データセットで0.955,0.971を得た。
関連論文リスト
- BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System [0.0]
GPT-3.5をベースとして,32,927対のテキストプラギアリズム検出データセットを生成する,プラギアライズされたテキストデータ生成手法を提案する。
また,BERT を用いた Faiss に基づく盗作識別手法を提案する。
このモデルの性能は, 98.86%, 98.90%, 98.86%, 0.9888, 精度, 精度, リコール, F1スコアなど, 様々な指標において他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-04-01T12:20:34Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文 参考訳(メタデータ) (2023-06-13T20:34:55Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - A Framework and Benchmarking Study for Counterfactual Generating Methods
on Tabular Data [0.0]
カウンターファクトな説明は、機械学習の予測を説明する効果的な方法と見なされる。
このような説明を導き出そうとするアルゴリズムは、すでに数十ある。
ベンチマーク研究とフレームワークは、実践者がどのテクニックとビルディングブロックが最も適しているかを決定するのに役立ちます。
論文 参考訳(メタデータ) (2021-07-09T21:06:03Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - DRIVE: One-bit Distributed Mean Estimation [16.41391088542669]
n$クライアントが$d(1+o(1))$ビットのみを使用して$d$次元実数値ベクトルを送信する問題を検討する。
我々は,従来の圧縮アルゴリズムを精度と計算効率で上回る新しいアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-05-18T08:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。