論文の概要: A systematic literature review on source code similarity measurement and
clone detection: techniques, applications, and challenges
- arxiv url: http://arxiv.org/abs/2306.16171v1
- Date: Wed, 28 Jun 2023 12:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:16:00.678556
- Title: A systematic literature review on source code similarity measurement and
clone detection: techniques, applications, and challenges
- Title(参考訳): ソースコードの類似度測定とクローン検出に関する体系的文献レビュー--技術,応用,課題
- Authors: Morteza Zakeri-Nasrabadi and Saeed Parsa and Mohammad Ramezani and
Chanchal Roy and Masoud Ekhtiarzadeh
- Abstract要約: 本稿では,コード類似度測定と評価手法に関する体系的な文献レビューとメタアナリシスを提案する。
深い調査によると、80のソフトウェアツールがあり、5つのアプリケーションドメインで8つの異なるテクニックで作業している。
信頼性のあるデータセットの欠如、経験的評価、ハイブリッドメソッド、マルチパラダイム言語にフォーカスしたことがこの分野の主な課題である。
- 参考スコア(独自算出の注目度): 0.979963710164115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring and evaluating source code similarity is a fundamental software
engineering activity that embraces a broad range of applications, including but
not limited to code recommendation, duplicate code, plagiarism, malware, and
smell detection. This paper proposes a systematic literature review and
meta-analysis on code similarity measurement and evaluation techniques to shed
light on the existing approaches and their characteristics in different
applications. We initially found over 10000 articles by querying four digital
libraries and ended up with 136 primary studies in the field. The studies were
classified according to their methodology, programming languages, datasets,
tools, and applications. A deep investigation reveals 80 software tools,
working with eight different techniques on five application domains. Nearly 49%
of the tools work on Java programs and 37% support C and C++, while there is no
support for many programming languages. A noteworthy point was the existence of
12 datasets related to source code similarity measurement and duplicate codes,
of which only eight datasets were publicly accessible. The lack of reliable
datasets, empirical evaluations, hybrid methods, and focuses on multi-paradigm
languages are the main challenges in the field. Emerging applications of code
similarity measurement concentrate on the development phase in addition to the
maintenance.
- Abstract(参考訳): ソースコードの類似度の測定と評価は、コードのレコメンデーション、重複コード、盗作、マルウェア、嗅覚検出など、幅広いアプリケーションを取り入れた、基本的なソフトウェアエンジニアリング活動である。
本稿では,コード類似度測定と評価手法に関する体系的な文献レビューとメタ分析を行い,既存手法とその特性を異なる用途で明らかにする。
私たちは最初、4つのデジタルライブラリーに問い合わせて100,000以上の記事を見つけました。
研究は方法論、プログラミング言語、データセット、ツール、アプリケーションによって分類された。
深い調査によると、80のソフトウェアツールがあり、5つのアプリケーションドメインで8つの異なるテクニックで作業している。
約49%のツールはjavaプログラムで動作し、37%はcとc++をサポートしているが、多くのプログラミング言語はサポートしていない。
注目すべき点は、ソースコードの類似度測定と重複コードに関連する12のデータセットが存在することだ。
信頼できるデータセットの欠如、経験的評価、ハイブリッドメソッド、マルチパラダイム言語にフォーカスすることが、この分野の主要な課題である。
コード類似度測定の新たな応用は、メンテナンスに加えて開発フェーズに集中する。
関連論文リスト
- Source Code Clone Detection Using Unsupervised Similarity Measures [0.0]
本研究は,ソースコードのクローン検出のための教師なし類似度尺度の比較分析を行う。
目標は、現在の最先端技術、その強み、弱点を概観することである。
論文 参考訳(メタデータ) (2024-01-18T10:56:27Z) - Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit [63.82016263181941]
コードインテリジェンスは、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。
現在、コードインテリジェンスに重点を置く研究コミュニティは活発です。
論文 参考訳(メタデータ) (2023-12-30T17:48:37Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Deep Learning Based Code Generation Methods: Literature Review [30.17038624027751]
本稿では、自然言語記述に従って関連するコードフラグメントを生成することを目的としたコード生成タスクに焦点を当てる。
本稿では,ディープラーニングに基づくコード生成手法に関する現在の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2023-03-02T08:25:42Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Learning Program Semantics with Code Representations: An Empirical Study [22.953964699210296]
プログラムセマンティクスの学習は、様々なコード知的なタスクの中核であり、基礎である。
現在の主流のコード表現テクニックを4つのカテゴリに分類する。
我々は,3つの多様で一般的なコード知能タスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2022-03-22T14:51:44Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z) - Project CodeNet: A Large-Scale AI for Code Dataset for Learning a
Diversity of Coding Tasks [11.10732802304274]
Project CodeNetは、1400万のコードサンプルと55の異なるプログラミング言語で約5億行のコードで構成されている。
Project CodeNetは、その規模だけでなく、ベンチマークに役立つコーディングタスクの多様性にも特有である。
論文 参考訳(メタデータ) (2021-05-25T00:13:29Z) - A Review of Uncertainty Quantification in Deep Learning: Techniques,
Applications and Challenges [76.20963684020145]
不確実性定量化(UQ)は、最適化と意思決定プロセスの両方において不確実性の低減に重要な役割を果たしている。
ビザレ近似とアンサンブル学習技術は、文学において最も広く使われている2つのUQ手法である。
本研究は, 深層学習におけるUQ手法の最近の進歩を概観し, 強化学習におけるこれらの手法の適用について検討する。
論文 参考訳(メタデータ) (2020-11-12T06:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。