論文の概要: How the Misuse of a Dataset Harmed Semantic Clone Detection
- arxiv url: http://arxiv.org/abs/2505.04311v1
- Date: Wed, 07 May 2025 10:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.043986
- Title: How the Misuse of a Dataset Harmed Semantic Clone Detection
- Title(参考訳): データセットによる意味クローン検出の誤用
- Authors: Jens Krinke, Chaiyong Ragkhitwetsagul,
- Abstract要約: 本稿では,BigCloneBenchが意味的コードの類似性を学習したり評価したりする上で,基礎的真理として用いることが問題であることを示す。
BigCloneBenchをデータセットとして使用する179の論文の文献レビューで、BigCloneBenchを使用してセマンティッククローン検出を評価する139の論文を発見した。
BigCloneBenchの使用は、Type-1、Type-2、Type-3クローンの構文的またはテキスト的クローン検出を評価する目的のために有効である、と強調する。
- 参考スコア(独自算出の注目度): 0.9361474110798144
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: BigCloneBench is a well-known and widely used large-scale dataset for the evaluation of recall of clone detection tools. It has been beneficial for research on clone detection and has become a standard in evaluating the performance of clone detection tools. More recently, it has also been widely used as a dataset to evaluate machine learning approaches to semantic clone detection or code similarity detection for functional or semantic similarity. This paper demonstrates that BigCloneBench is problematic to use as ground truth for learning or evaluating semantic code similarity, and highlights the aspects of BigCloneBench that affect the ground truth quality. A manual investigation of a statistically significant random sample of 406 Weak Type-3/Type-4 clone pairs revealed that 93% of them do not have a similar functionality and are therefore mislabelled. In a literature review of 179 papers that use BigCloneBench as a dataset, we found 139 papers that used BigCloneBench to evaluate semantic clone detection and where the results are threatened in their validity by the mislabelling. As such, these papers often report high F1 scores (e.g., above 0.9), which indicates overfitting to dataset-specific artefacts rather than genuine semantic similarity detection. We emphasise that using BigCloneBench remains valid for the intended purpose of evaluating syntactic or textual clone detection of Type-1, Type-2, and Type-3 clones. We acknowledge the important contributions of BigCloneBench to two decades of traditional clone detection research. However, the usage of BigCloneBench beyond the intended purpose without careful consideration of its limitations has led to misleading results and conclusions, and potentially harmed the field of semantic clone detection.
- Abstract(参考訳): BigCloneBenchは、クローン検出ツールのリコールを評価するためによく知られ、広く使われている大規模なデータセットである。
クローン検出の研究に有用であり、クローン検出ツールの性能評価の標準となっている。
最近では、セマンティッククローン検出や、機能的またはセマンティック類似性のためのコード類似性検出に対する機械学習アプローチを評価するデータセットとしても広く使用されている。
本稿では,BigCloneBenchが意味的コードの類似性を学習したり評価したりするために,基礎的真理として用いることが問題であることを示し,基礎的真理品質に影響を与えるBigCloneBenchの側面を強調した。
406 Weak Type-3/Type-4クローンペアの統計学的に有意なランダムサンプルを手動で調べたところ、そのうち93%は同様の機能を持っておらず、したがって誤認されていることがわかった。
BigCloneBenchをデータセットとして使用した179の論文の文献レビューにおいて、BigCloneBenchを使用してセマンティッククローンの検出を評価し、結果が誤動作によって有効であると脅かされた場合、139の論文が見つかった。
このように、これらの論文は、真に意味的類似性を検出するのではなく、データセット固有のアーティファクトに過度に適合していることを示す高いF1スコア(例:0.9以上)をしばしば報告する。
BigCloneBenchの使用は、Type-1、Type-2、Type-3クローンの構文的またはテキスト的クローン検出を評価する目的のために有効である、と強調する。
従来のクローン検出研究20年間のBigCloneBenchの重要な貢献を認めます。
しかし、BigCloneBenchの使用は、その制限を慎重に考慮せずに意図した目的を超えて、結果と結論を誤解させ、セマンティッククローン検出の分野を害する可能性がある。
関連論文リスト
- CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2025-03-02T02:02:57Z) - Fuzzy Granule Density-Based Outlier Detection with Multi-Scale Granular Balls [65.44462297594308]
外乱検出は、正常なデータの分布から大きく逸脱する異常なサンプルの同定を指す。
ほとんどの教師なしの外れ値検出方法は、指定された外れ値を検出するために慎重に設計されている。
ファジィ粗集合に基づくマルチスケールアウトレイラ検出手法を提案し,様々な種類のアウトレイラを同定する。
論文 参考訳(メタデータ) (2025-01-06T12:35:51Z) - On the Use of Deep Learning Models for Semantic Clone Detection [4.796947520072581]
既存のベンチマークデータセットを利用した5つの最先端クローン検出モデルに対する多段階評価手法を提案する。
具体的には,BigCloneBench,SemanticCloneBench,GPTCloneBenchの3つの高性能単一言語モデル(ASTNN,GMN,CodeBERT)について検討する。
単一言語モデルはBigCloneBenchのF1スコアが高いが、SemanticCloneBenchのパフォーマンスは20%まで異なる。
興味深いことに、クロス言語モデル(C4)は他のモデルよりもSemanticCloneBenchの方が優れたパフォーマンス(約7%)を示している。
論文 参考訳(メタデータ) (2024-12-19T11:15:02Z) - C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文 参考訳(メタデータ) (2024-08-19T02:14:25Z) - SimClone: Detecting Tabular Data Clones using Value Similarity [37.85935189975307]
データセット間のデータクローンの存在は、クローンを使用したデータセットを使用してAIソフトウェアを構築する際に問題を引き起こす可能性がある。
構造情報に依存しない表形式のデータセットにおけるデータクローン検出のためのSimCloneと呼ばれる新しい手法を提案する。
以上の結果から,我々のSimCloneは,F1スコアとAUCの両面で,最先端の手法よりも20%高い性能を示した。
論文 参考訳(メタデータ) (2024-06-24T04:16:32Z) - Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone
Detection [0.0]
SSCDはBERTベースのクローン検出アプローチで、Type 3とType 4のクローンの大規模なリコールをターゲットとしている。
これは、各コードフラグメントへの代表埋め込みを計算し、近くの検索を使って類似のフラグメントを見つけることで実現している。
本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
論文 参考訳(メタデータ) (2023-09-05T12:38:55Z) - GPTCloneBench: A comprehensive benchmark of semantic clones and
cross-language clones using GPT-3 model and SemanticCloneBench [1.8687918300580921]
本稿では,SemanticCloneBenchとOpenAIのGPT-3モデルを利用して,包括的セマンティッククローンと言語間クローンベンチマークGPTCloneBenchを提案する。
GPT-3出力の79,928個のクローンペアから、37,149個の真のセマンティッククローンペア、19,288個の偽セマンティックペア(Type-1/Type-2)、および4言語(Java、C、C#、Python)にわたる20,770個のクロス言語クローンのベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-08-26T21:50:34Z) - Evaluation of Contrastive Learning with Various Code Representations for
Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。
CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。
評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-17T12:25:44Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Semantic Clone Detection via Probabilistic Software Modeling [69.43451204725324]
本稿では,0%の構文的類似性を有するクローンを検出する意味的クローン検出手法を提案する。
我々は,SCD-PSMをセマンティッククローン検出のための安定かつ高精度なソリューションとして提示する。
論文 参考訳(メタデータ) (2020-08-11T17:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。