論文の概要: A systematic literature review on source code similarity measurement and
clone detection: techniques, applications, and challenges
- arxiv url: http://arxiv.org/abs/2306.16171v1
- Date: Wed, 28 Jun 2023 12:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:16:00.678556
- Title: A systematic literature review on source code similarity measurement and
clone detection: techniques, applications, and challenges
- Title(参考訳): ソースコードの類似度測定とクローン検出に関する体系的文献レビュー--技術,応用,課題
- Authors: Morteza Zakeri-Nasrabadi and Saeed Parsa and Mohammad Ramezani and
Chanchal Roy and Masoud Ekhtiarzadeh
- Abstract要約: 本稿では,コード類似度測定と評価手法に関する体系的な文献レビューとメタアナリシスを提案する。
深い調査によると、80のソフトウェアツールがあり、5つのアプリケーションドメインで8つの異なるテクニックで作業している。
信頼性のあるデータセットの欠如、経験的評価、ハイブリッドメソッド、マルチパラダイム言語にフォーカスしたことがこの分野の主な課題である。
- 参考スコア(独自算出の注目度): 0.979963710164115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring and evaluating source code similarity is a fundamental software
engineering activity that embraces a broad range of applications, including but
not limited to code recommendation, duplicate code, plagiarism, malware, and
smell detection. This paper proposes a systematic literature review and
meta-analysis on code similarity measurement and evaluation techniques to shed
light on the existing approaches and their characteristics in different
applications. We initially found over 10000 articles by querying four digital
libraries and ended up with 136 primary studies in the field. The studies were
classified according to their methodology, programming languages, datasets,
tools, and applications. A deep investigation reveals 80 software tools,
working with eight different techniques on five application domains. Nearly 49%
of the tools work on Java programs and 37% support C and C++, while there is no
support for many programming languages. A noteworthy point was the existence of
12 datasets related to source code similarity measurement and duplicate codes,
of which only eight datasets were publicly accessible. The lack of reliable
datasets, empirical evaluations, hybrid methods, and focuses on multi-paradigm
languages are the main challenges in the field. Emerging applications of code
similarity measurement concentrate on the development phase in addition to the
maintenance.
- Abstract(参考訳): ソースコードの類似度の測定と評価は、コードのレコメンデーション、重複コード、盗作、マルウェア、嗅覚検出など、幅広いアプリケーションを取り入れた、基本的なソフトウェアエンジニアリング活動である。
本稿では,コード類似度測定と評価手法に関する体系的な文献レビューとメタ分析を行い,既存手法とその特性を異なる用途で明らかにする。
私たちは最初、4つのデジタルライブラリーに問い合わせて100,000以上の記事を見つけました。
研究は方法論、プログラミング言語、データセット、ツール、アプリケーションによって分類された。
深い調査によると、80のソフトウェアツールがあり、5つのアプリケーションドメインで8つの異なるテクニックで作業している。
約49%のツールはjavaプログラムで動作し、37%はcとc++をサポートしているが、多くのプログラミング言語はサポートしていない。
注目すべき点は、ソースコードの類似度測定と重複コードに関連する12のデータセットが存在することだ。
信頼できるデータセットの欠如、経験的評価、ハイブリッドメソッド、マルチパラダイム言語にフォーカスすることが、この分野の主要な課題である。
コード類似度測定の新たな応用は、メンテナンスに加えて開発フェーズに集中する。
関連論文リスト
- CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Source Code Clone Detection Using Unsupervised Similarity Measures [0.0]
本研究は,ソースコードのクローン検出のための教師なし類似度尺度の比較分析を行う。
目標は、現在の最先端技術、その強み、弱点を概観することである。
論文 参考訳(メタデータ) (2024-01-18T10:56:27Z) - Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit [63.82016263181941]
コードインテリジェンスは、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。
現在、コードインテリジェンスに重点を置く研究コミュニティは活発です。
論文 参考訳(メタデータ) (2023-12-30T17:48:37Z) - Deep Learning Based Code Generation Methods: Literature Review [30.17038624027751]
本稿では、自然言語記述に従って関連するコードフラグメントを生成することを目的としたコード生成タスクに焦点を当てる。
本稿では,ディープラーニングに基づくコード生成手法に関する現在の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2023-03-02T08:25:42Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Learning Program Semantics with Code Representations: An Empirical Study [22.953964699210296]
プログラムセマンティクスの学習は、様々なコード知的なタスクの中核であり、基礎である。
現在の主流のコード表現テクニックを4つのカテゴリに分類する。
我々は,3つの多様で一般的なコード知能タスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2022-03-22T14:51:44Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z) - Project CodeNet: A Large-Scale AI for Code Dataset for Learning a
Diversity of Coding Tasks [11.10732802304274]
Project CodeNetは、1400万のコードサンプルと55の異なるプログラミング言語で約5億行のコードで構成されている。
Project CodeNetは、その規模だけでなく、ベンチマークに役立つコーディングタスクの多様性にも特有である。
論文 参考訳(メタデータ) (2021-05-25T00:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。