論文の概要: Source Code Clone Detection Using Unsupervised Similarity Measures
- arxiv url: http://arxiv.org/abs/2401.09885v3
- Date: Tue, 6 Feb 2024 15:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:16:50.035795
- Title: Source Code Clone Detection Using Unsupervised Similarity Measures
- Title(参考訳): 教師なし類似度尺度を用いたソースコードクローン検出
- Authors: Jorge Martinez-Gil
- Abstract要約: 本研究は,ソースコードのクローン検出のための教師なし類似度尺度の比較分析を行う。
目標は、現在の最先端技術、その強み、弱点を概観することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing similarity in source code has gained significant attention in
recent years due to its importance in software engineering tasks such as clone
detection and code search and recommendation. This work presents a comparative
analysis of unsupervised similarity measures for identifying source code clone
detection. The goal is to overview the current state-of-the-art techniques,
their strengths, and weaknesses. To do that, we compile the existing
unsupervised strategies and evaluate their performance on a benchmark dataset
to guide software engineers in selecting appropriate methods for their specific
use cases. The source code of this study is available at
https://github.com/jorge-martinez-gil/codesim
- Abstract(参考訳): 近年,クローン検出やコード検索,レコメンデーションといったソフトウェア工学タスクの重要性から,ソースコードの類似性の評価が注目されている。
本研究はソースコードクローン検出のための教師なし類似度尺度の比較分析を行う。
目標は、現在の最先端技術、その強み、弱点を概観することである。
そのため、既存の教師なし戦略をコンパイルし、ベンチマークデータセットでパフォーマンスを評価することで、ソフトウェアエンジニアが特定のユースケースに適した方法を選択するようにガイドします。
この研究のソースコードはhttps://github.com/jorge-martinez-gil/codesimで入手できる。
関連論文リスト
- Between Lines of Code: Unraveling the Distinct Patterns of Machine and
Human Programmers [15.314580751870777]
機械と人為的なコードを特徴付ける特定のパターンについて検討する。
本研究では,DeuterCodeGPTと呼ばれる新しい機械生成コード検出手法を提案する。
提案手法は, 機械生成コードの検出における最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-12T09:15:20Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Malicious Source Code Detection Using Transformer [0.0]
本稿では,トランスフォーマー(MSDT)アルゴリズムを用いたMalicious Source code Detectionを提案する。
MSDTは、ソースコードパッケージへの実世界のコードインジェクションケースを検出するディープラーニング手法に基づく、新しい静的解析である。
我々のアルゴリズムは、悪意のあるコードで注入された関数を精度@kで最大0.909の精度で検出できる。
論文 参考訳(メタデータ) (2022-09-16T14:16:50Z) - Evaluation of Contrastive Learning with Various Code Representations for
Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。
CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。
評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-17T12:25:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Code Clone Detection based on Event Embedding and Event Dependency [7.652540019496754]
本稿では,意味的類似性に基づくコードクローン検出手法を提案する。
連続的に発生する一連の相互依存イベントとしてコードを扱うことにより、コードの意味情報をエンコードするモデル、EDAMを設計する。
実験の結果,我々のEDAMモデルは,コードクローン検出のための最先端のオープンソースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-28T15:50:15Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。